2026年5月17日 17:56

新ベンチマークSOOHAK、AIが解けない問題を解いてしまう実態を可視化

New math benchmark reveals AI models confidently solve problems that have no solution

3行まとめ

•数学者64名がSOOHAKを構築
•99問は意図的に解答不能
•Gemini 3 Proが30%で首位

詳細

背景

64名の数学者からなる共同研究チームが、新たなAI評価ベンチマーク「SOOHAK」を発表した。手書きで作成された439問の数学問題が収録されており、そのうち99問は意図的に「解答が存在しない問題」として設計されている。研究レベルの数学的能力と、問題の不備を見抜く能力の両面からAIモデルを評価する点が特徴である。

内容

Googleの「Gemini 3 Pro」が研究レベル問題で30%の正答率を記録しトップに立った。一方で、解答不能な問題を正しく指摘できたモデルは1つもなく、いずれも50%の壁を越えられなかった。計算リソースを増やすと問題を解く能力は向上するが、「答えがない」と認める能力は改善しないことが明らかになった。

今後の影響

SOOHAKは、派手なベンチマーク結果と実際の研究現場で求められる能力との間にある大きなギャップを浮き彫りにする。AIが自信を持って誤答する傾向は、研究・教育・業務での信頼性に直結する課題として今後の評価軸に影響を与える。

なぜ重要か

AIが答えのない問題に自信満々で回答する弱点が定量化された。業務利用時の検証プロセス設計に直結する知見。

研究・論文 Google Gemini データ分析ハルシネーション

元記事を読む — The Decoder

新ベンチマークSOOHAK、AIが解けない問題を解いてしまう実態を可視化

3行まとめ

詳細

背景

内容

今後の影響

なぜ重要か

人気記事