AIニュース3行まとめ最新AIニュースを3行でサクッとキャッチアップ

#ベンチマーク

30 件の記事

12時間前

DataFlow-Harnessでパイプライン精度向上

•AIエージェント、単発コードは得意
•構造化パイプラインは精度10.9点低下
•DataFlow-Harnessが精度差を縮小

コーディングエージェントデータパイプライン検索拡張生成

続きを読む →

16時間前

DeepSeekのFlash新版がGPT-5.6に接近

•DeepSeekの新型Flashが性能急上昇
•GPT-5.6 Lunaにわずか1点差に接近
•コストは約60%安く済む

DeepSeek OpenAI 価格競争

続きを読む →

2日前

GPT-5.6のARC-AGI-3スコアが2設定で3倍に

•GPT-5.6がARC-AGI-3でスコア3倍に
•推論保持と圧縮の2設定が鍵
•効率も改善、APIで利用可能

OpenAI ベンチマーク API

続きを読む →

4日前

Moonshot AI、Kimi K3の重みを公開

•中国Moonshot AIがKimi K3公開
•欧米フロンティアモデルに迫る性能
•サイバー・数学に性能差、蒸留の疑い

オープンソース中国AI ベンチマーク

続きを読む →

4日前

METR、AIエージェント経済性の新指標発表

•METRが新指標「支出地平線」発表
•AIエージェントの費用対効果を数値化
•NanoGPT実験では期待未満の結果

AIエージェントベンチマーク研究・論文

続きを読む →

5日前

Claude Opus 5がARC-AGI-3で新記録

•Opus 5がARC-AGI-3で30.2%獲得
•GPT-5.6 Solの7.8%を大幅更新
•反射方程式を独自導出、初の事例

ベンチマーク Anthropic OpenAI

続きを読む →

注目7月17日

Moonshot AI、最大級OSSモデルKimi K3公開

•Moonshot AIがKimi K3公開
•2.8兆パラメータの世界最大OSS
•Anthropic・OpenAIに匹敵する性能

オープンソース Moonshot AI Kimi K3

続きを読む →

7月17日

NVIDIAの新埋め込みモデルがRTEB首位獲得

•NVIDIA Nemotron 3 Embed発表
•検索ベンチマークRTEBで総合1位
•エージェント型検索の性能向上

NVIDIA 検索 AIエージェント

続きを読む →

7月16日

DharmaOCRが最新汎用OCRに圧勝

•ブラジル特化OCRが最新モデルに勝利
•精度0.925、競合は0.76〜0.80
•固有名詞誤認識など新モデルに課題

OCR 研究・論文ベンチマーク

続きを読む →

7月9日

Android Bench更新、GeminiがLLMで後れ

•Android BenchにFable 5等の新LLMを追加
•GeminiはFable 5などより低スコアと判明
•開発者もベンチマーク改善に参加できる

Android ベンチマーク Google

続きを読む →

7月3日

BridgewaterのQwen3、金融テストでGPT超え

•Bridgewaterが金融特化Qwen3を共同開発
•精度84.7%、コスト1/14を達成と主張
•ただし第三者による検証はなし

金融ベンチマークファインチューニング

続きを読む →

6月30日

Hugging Face、モデルページに全評価結果を掲載

•Hugging Faceがモデルページに評価結果を統合表示
•コミュニティ収集の全評価データを一元参照可能に
•モデル選定の透明性と比較効率が向上

Hugging Face モデル評価オープンソース

続きを読む →

6月30日

Arena AIリーダーボードが$100M事業に

•ArenaがAI評価で$100M企業に成長
•商用サービス開始は2025年9月
•AI評価インフラの商業化が加速

ベンチマーク新サービススタートアップ

続きを読む →

6月28日

CEO-BenchでAI経営シミュ、3モデルのみ黒字

•Princetonが500日経営シミュを開発
•大半のAIモデルは資金ショートで破綻
•ルールベース手法がAI全モデルを上回る

研究・論文仕事・業務効率化 AIエージェント

続きを読む →

6月18日

NRIが語るAIモデルの正しい選び方

•NRIがAIモデル選定の考え方を解説
•ベンチマークだけでは実力は測れない
•業務特性に合わせた独自評価が鍵

仕事・業務効率化モデル比較コンサルティング

続きを読む →

6月13日

Claude Fable 5、価格2倍で性能差は5.7%

•Fable 5の性能向上はOpus 4.8比わずか5.7%
•価格はOpus 4.8の2倍でコスパが課題
•安全フィルターの迂回コストも加わり割高

Anthropic Claude 料金改定

続きを読む →

6月13日

Ai2、モデル評価ツールolmo-eval公開

•Ai2が評価ツールolmo-eval公開
•チェックポイント比較に特化した設計
•OLMESを拡張しオープンソース化

オープンソースベンチマーク開発ツール

続きを読む →

注目6月4日

Qwen3.7-Plus発表、テキストでOpus超え

•AlibabaがQwen3.7-Plusを発表
•視覚と言語を統合したマルチモーダルAI
•テキスト性能でOpus-4.6 Max超えと主張

Alibaba Qwen マルチモーダル

続きを読む →

6月4日

音声AI評価のEVA-Bench Data 2.0公開

•ServiceNowが音声AI評価基盤2.0を公開
•3分野・121ツール・213シナリオ
•MITライセンスでOSS公開

音声AI ベンチマークオープンソース

続きを読む →

5月31日

AI検索エージェント、実は記憶頼りと判明

•主要AI検索エージェントは実は検索せず記憶で回答
•新指標が直近90日の事象で実力を検証
•記憶が使えないと性能が崩れ順位も逆転

検索研究・論文ベンチマーク

続きを読む →

5月29日

Ricoh、日本語文書AI評価ベンチマークを無償公開

•Ricohが評価ツールを無償公開
•図表含む日本語文書の推論を測定
•国産AIの文書理解性能を検証

データ分析研究・論文オープンソース

続きを読む →

5月28日

IBM、企業ITタスクのAIベンチマーク公開

•IBMとArtificial Analysisが共同開発
•主要モデル全てが50%未満のスコア
•企業IT運用の自律実行能力を測定

IBM AIエージェントベンチマーク

続きを読む →

5月18日

Open Agent Leaderboard公開、エージェント性能を比較

•IBMがエージェント性能比較LBを公開
•複数LLMと推論方式を統一評価
•コスト性能比も可視化し選定支援

エージェントベンチマークオープンソース

続きを読む →

5月16日

新ベンチマーク、Claude MythosとGPT-5.5がブラウザ脆弱性を自律攻撃

•CMUが新ベンチマークを公開
•V8エンジンの脆弱性を自律攻撃
•Mythosが首位だがコスト12倍

セキュリティ・プライバシー研究・論文 Claude

続きを読む →

5月16日

新ベンチマーク、AI動画生成の論理推論力不足を露呈

•WorldReasonBenchが新登場
•Seedance 2.0が首位を獲得
•論理推論は全モデル苦戦

動画生成研究・論文 ByteDance

続きを読む →

5月12日

OpenAI、Parameter Golfの成果と学びを公開

•OpenAIのParameter Golfに1000人以上が参加
•16MB制約下でAI支援のML研究を競った
•量子化やモデル設計の新知見が多数得られた

OpenAI モデル蒸留ベンチマーク

続きを読む →

5月3日

中国AI、米政府ベンチマークで8ヶ月遅れと評価

•米政府機関が中国AIを8ヶ月遅れと評価
•独立データはこの主張を裏付けていない
•DeepSeekの価格優位性が中国の強みに

米中関係 DeepSeek AI政策

続きを読む →

5月2日

ARC-AGI-3で最新AIが3種の体系的エラー

•GPT-5.5とOpus 4.7が正答率1%未満
•人間に簡単な課題で3種の推論エラー
•ARC Prize財団が160ゲームを分析

OpenAI Anthropic 研究・論文

続きを読む →

4月30日

AI評価コストが新たな計算ボトルネックに

•AI評価コストが計算ボトルネックに浮上
•evalコストが学習コストに匹敵する規模に
•効率的なeval手法の重要性が増大

研究・論文ベンチマークコスト管理

続きを読む →

4月19日

複雑なグラフでAIの性能が半減、新ベンチマークで判明

•複雑なグラフでAIの性能が約50%低下
•RealChart2Codeが14モデルを実データで評価
•上位商用モデルも複雑化で大幅に精度が落ちる

データ分析研究・論文ベンチマーク

続きを読む →

← ニュース一覧