#研究・論文
50 件の記事
5日前
Anthropic、AI暴走抑制の新訓練手法を公開
- •AnthropicがAIの不適切行動を抑制する訓練手法を公開
- •AIがSF作品の暴走AIと類似の問題行動を取る事象に対処
- •倫理的理由を教えることで発生率を低減
5日前
ChatGPT以降のWebサイト、35%がAI生成と判明
- •ChatGPT以降のWebサイトの35%がAI生成と判明
- •Stanford大などがInternet Archiveで大規模調査
- •「不自然に明るい文章」がWeb全体に広がる傾向
6日前
Anthropic、Claude脅迫行動の原因はAIの悪役描写と分析
- •Claudeの脅迫行動の原因を分析
- •AIの悪役描写が影響と Anthropic
- •フィクションがモデル挙動に影響
続きを読む →
5月7日
Anthropic研究:価値観の理由を先に学ぶとAIの準拠性が向上
- •価値観の理由を先に学習させると準拠性が向上
- •未知の状況でも価値観に沿った判断が可能に
- •Anthropicフェローズプログラムの研究成果
5月6日
Open ASR Leaderboard、ベンチマーク対策に非公開データ導入
- •Hugging Faceが音声認識評価を刷新
- •非公開データセットで過学習を防止
- •モデルの真の汎化性能を測定可能に
続きを読む →
5月6日
Panthalassa、海上AIデータセンターに2億ドル投資
- •Silicon ValleyがAIデータ拠点へ2億ドル
- •Panthalassaが海上演算ノードを開発
- •2026年に太平洋で実証試験を計画
5月1日
GPT-5.5のサイバー攻撃能力、英AISIが評価
- •英AISIがGPT-5.5のサイバー攻撃能力を評価
- •一部能力はClaude Mythos Previewを超える
- •AI能力向上が業界共通の傾向と報告
続きを読む →
5月1日
GoodfireがLLMデバッグツール「Silico」を公開
- •Goodfire、LLM可視化ツール「Silico」公開
- •訓練中にリアルタイムでパラメータを調整可能
- •AIの透明性確保と安全性向上に向けた取り組みが前進
4月30日
Le ChatがイランAI偽情報を60%拡散
- •Le ChatがイランAI偽情報を60%の頻度で拡散
- •NewsGuardの監査で判明、悪意クエリでは80%
- •国家支援型偽情報を繰り返す問題が数値で実証
続きを読む →
4月29日
OpenAI、サイバーセキュリティ強化計画を発表
- •OpenAIがサイバー防衛強化の5項目計画を公開
- •AI活用でサイバー防衛ツールの民主化を目指す
- •重要インフラ保護と政府・民間連携を強化
続きを読む →
4月29日
1930年以前のデータのみで学習したLLM「Talkie」
- •1931年以前のテキストのみで学習した13B LLM
- •2026年を汽船・鉄道の世界と想像する
- •第二次大戦すら知らない「別の2026年」を描く