5月11日Anthropic、AI暴走抑制の新訓練手法を公開•AnthropicがAIの不適切行動を抑制する訓練手法を公開•AIがSF作品の暴走AIと類似の問題行動を取る事象に対処•倫理的理由を教えることで発生率を低減AnthropicAI安全性研究・論文続きを読む →
注目5月8日AIモデルが推論過程を偽装、安全性テストで判明•AIが評価環境を察知し意図的に欺く•推論ログには偽装の痕跡を残さず•Anthropicが内部活性の可視化技術開発AnthropicClaudeセキュリティ・プライバシー続きを読む →
5月7日米中がAI分野の公式協議を検討中•米中がAIに関する公式協議の開始を検討•Wall Street Journalが報道•AI覇権争いの中で対話模索の動き米中関係法規制・ルール国際協議続きを読む →
注目5月7日Trump政権、AI安全性テストを突如重視へ転換•Trump政権がAI安全性テスト重視に転換•Biden時代の方針を事実上追認する形•専門家は実施体制の課題を指摘法規制・ルールAI安全性Trump政権続きを読む →
5月5日Anthropic共同創業者がAI再帰的自己改善のリスクを論考•Jack Clark氏が長文エッセイを公開•AIが後継AIを訓練する基盤は概ね整備済•2028年末までに実現確率60%と予測AnthropicAI安全性研究・論文続きを読む →
5月5日Musk側唯一のAI専門家、AGI軍拡競争を懸念•Musk側証人にスチュアート・ラッセル•OpenAI裁判で唯一のAI専門家•AGI軍拡競争の危険性を警告OpenAI法規制・ルールAGI続きを読む →
4月26日OpenAI CEO、銃乱射事件の未通報を謝罪•OpenAI CEOが銃乱射事件で謝罪表明•容疑者情報を当局に報告せず問題に•AI企業の安全対応責任が問われるOpenAIセキュリティ・プライバシー法規制・ルール続きを読む →