2026年5月2日 22:31

ARC-AGI-3で最新AIが3種の体系的エラー

Even the latest AI models make three systematic reasoning errors, ARC-AGI-3 analysis shows

3行まとめ

•GPT-5.5とOpus 4.7が正答率1%未満
•人間に簡単な課題で3種の推論エラー
•ARC Prize財団が160ゲームを分析

詳細

背景

ARC Prize財団は、OpenAIのGPT-5.5とAnthropicのOpus 4.7を対象に、ARC-AGI-3ベンチマーク上で合計160ゲームの実行を詳細に分析した。ARC-AGI-3は人間が直感的に解ける抽象的な推論課題で構成されており、AIの汎用的な推論能力を測る指標として研究者の注目を集めている。

分析結果

分析の結果、両モデルとも正答率が1%未満にとどまることが判明した。さらに、モデルの失敗を引き起こす3種類の体系的な推論エラーパターンが特定された。これらのエラーは、現在の最先端モデルが人間のような柔軟で直感的な推論をまだ実現できていないことを示している。エラーが体系的（ランダムではなく再現性あり）という点が重要で、現在のモデルアーキテクチャが抱える構造的な制約を示している。

今後の影響

この発見は、GPT-5.5やOpus 4.7といった最新世代のモデルでも、AGI（汎用人工知能）の実現には大きな課題が残ることを示す。高度な数学やコーディングのベンチマークで優秀な成績を収めるモデルが、人間なら容易に解ける推論課題で体系的に失敗するという事実は、現在のAI能力の限界と適切な用途を見極める上での重要なデータとなる。

なぜ重要か

最新AIモデルが人間には容易な推論課題で体系的に失敗するという事実は、AI能力の限界を示す客観的証拠となる。

OpenAI Anthropic 研究・論文ベンチマーク AGI

元記事を読む — The Decoder

ARC-AGI-3で最新AIが3種の体系的エラー

3行まとめ

詳細

背景

分析結果

今後の影響

なぜ重要か

人気記事