2026年5月29日 06:29
LLM、虚偽と警告後も事実と誤認
LLMs believe false statements even after explicit warnings that they're false
3行まとめ
- •LLMは誤情報を事実扱いする傾向
- •「これは虚偽」と警告しても信じ込む
- •ファインチューニング実験で判明
詳細
内容
Ars Technicaが報じた研究で、LLM(大規模言語モデル)に「この記述は虚偽である」と明示的に警告した上で学習させても、その内容を事実として信じ込んでしまう傾向が確認された。ファインチューニング(追加学習)のテストにおいて、モデルは虚偽と注記された記述についても「自信を持って真実として表現する偏り」を示した。
背景
LLMは学習データに含まれる記述を、たとえ否定的な文脈や警告ラベルが付いていても、その情報自体を取り込んでしまう。否定や警告の文脈を適切に処理できず、記述の中身だけを学習・定着させる構造的な弱点が浮き彫りになった。
今後の影響
この特性は、誤情報や偽情報を含むデータでの学習リスクを示している。安全対策として虚偽データに警告を付与するだけでは不十分であり、学習データの選別やモデル設計の見直しが求められる。AIの信頼性確保に向けた新たな課題となる。
なぜ重要か
LLMが虚偽情報を警告ごと信じ込む弱点を示し、AI出力の信頼性やデータ選別の重要性を再認識させる研究結果。
元記事を読む — Ars Technica AI