2026年7月3日 20:16

BridgewaterのQwen3、金融テストでGPT超え

GPT and Claude failed Bridgewater's finance tests because the right answers were never public

3行まとめ

•Bridgewaterが金融特化Qwen3を共同開発
•精度84.7%、コスト1/14を達成と主張
•ただし第三者による検証はなし

詳細

背景

Bridgewaterは世界最大級のヘッジファンドであり、金融データに関する独自の知見を持つ。Thinking Machines LabはOpenAIの元CTOであるミラ・ムラティが設立したAIスタートアップ。両社はAlibaba開発のオープンソースモデルQwen3-235Bをベースに、金融タスク特化のファインチューニングを共同で実施した。

内容

両社が独自に実施した評価テストによると、このモデルは84.7%の精度を達成し、Gemini・Claude・GPTを上回ったという。コストは競合モデルの約14分の1に抑えられると主張している。なお、このテストには非公開の金融データが正解として使用されており、既存の汎用AIモデルはそのデータを事前学習する機会がなかった。「GPTやClaudeが失敗した」という表現の背景には、こうした評価条件の非対称性がある。

留意点

今回の評価結果はBridgewaterとThinking Machines Lab自身が公表したものであり、独立した第三者機関による検証は行われていない。業界特化の非公開ベンチマークで自社モデルが有利になるのは構造的に当然の傾向があり、数値の解釈には慎重さが求められる。金融業務への実用導入を検討する場合、外部検証データの公開を待つことが望ましい。

なぜ重要か

Bridgewaterとミラ・ムラティのAIが金融特化Qwen3を開発。自社検証のみで競合AIを精度・コスト両面で圧倒と主張するが第三者確認はない。

金融×AI ベンチマークファインチューニングコスト削減 Qwen

元記事を読む — The Decoder

BridgewaterのQwen3、金融テストでGPT超え

3行まとめ

詳細

背景

内容

留意点

なぜ重要か

人気記事