4日前Claude Fable 5、価格2倍で性能差は5.7%•Fable 5の性能向上はOpus 4.8比わずか5.7%•価格はOpus 4.8の2倍でコスパが課題•安全フィルターの迂回コストも加わり割高AnthropicClaudeコスト比較続きを読む →
4日前Ai2、モデル評価ツールolmo-eval公開•Ai2が評価ツールolmo-eval公開•チェックポイント比較に特化した設計•OLMESを拡張しオープンソース化オープンソースベンチマーク開発ツール続きを読む →
注目6月4日Qwen3.7-Plus発表、テキストでOpus超え•AlibabaがQwen3.7-Plusを発表•視覚と言語を統合したマルチモーダルAI•テキスト性能でOpus-4.6 Max超えと主張AlibabaQwenマルチモーダル続きを読む →
6月4日音声AI評価のEVA-Bench Data 2.0公開•ServiceNowが音声AI評価基盤2.0を公開•3分野・121ツール・213シナリオ•MITライセンスでOSS公開音声エージェントベンチマークオープンソース続きを読む →
5月31日AI検索エージェント、実は記憶頼りと判明•主要AI検索エージェントは実は検索せず記憶で回答•新指標が直近90日の事象で実力を検証•記憶が使えないと性能が崩れ順位も逆転検索研究・論文ベンチマーク続きを読む →
5月29日Ricoh、日本語文書AI評価ベンチマークを無償公開•Ricohが評価ツールを無償公開•図表含む日本語文書の推論を測定•国産AIの文書理解性能を検証データ分析研究・論文オープンソース続きを読む →
5月28日IBM、企業ITタスクのAIベンチマーク公開•IBMとArtificial Analysisが共同開発•主要モデル全てが50%未満のスコア•企業IT運用の自律実行能力を測定IBMAIエージェントベンチマーク続きを読む →
5月18日Open Agent Leaderboard公開、エージェント性能を比較•IBMがエージェント性能比較LBを公開•複数LLMと推論方式を統一評価•コスト性能比も可視化し選定支援エージェントベンチマークオープンソース続きを読む →
5月16日新ベンチマーク、Claude MythosとGPT-5.5がブラウザ脆弱性を自律攻撃•CMUが新ベンチマークを公開•V8エンジンの脆弱性を自律攻撃•Mythosが首位だがコスト12倍セキュリティ・プライバシー研究・論文Claude続きを読む →
5月16日新ベンチマーク、AI動画生成の論理推論力不足を露呈•WorldReasonBenchが新登場•Seedance 2.0が首位を獲得•論理推論は全モデル苦戦動画生成研究・論文ByteDance続きを読む →
5月3日中国AI、米政府ベンチマークで8ヶ月遅れと評価•米政府機関が中国AIを8ヶ月遅れと評価•独立データはこの主張を裏付けていない•DeepSeekの価格優位性が中国の強みに米中関係DeepSeekAI政策続きを読む →
4月19日複雑なグラフでAIの性能が半減、新ベンチマークで判明•複雑なグラフでAIの性能が約50%低下•RealChart2Codeが14モデルを実データで評価•上位商用モデルも複雑化で大幅に精度が落ちるデータ分析研究・論文ベンチマーク続きを読む →