2026年7月3日 20:16
BridgewaterのQwen3、金融テストでGPT超え
GPT and Claude failed Bridgewater's finance tests because the right answers were never public
3行まとめ
- •Bridgewaterが金融特化Qwen3を共同開発
- •精度84.7%、コスト1/14を達成と主張
- •ただし第三者による検証はなし
詳細
背景
Bridgewaterは世界最大級のヘッジファンドであり、金融データに関する独自の知見を持つ。Thinking Machines LabはOpenAIの元CTOであるミラ・ムラティが設立したAIスタートアップ。両社はAlibaba開発のオープンソースモデルQwen3-235Bをベースに、金融タスク特化のファインチューニングを共同で実施した。
内容
両社が独自に実施した評価テストによると、このモデルは84.7%の精度を達成し、Gemini・Claude・GPTを上回ったという。コストは競合モデルの約14分の1に抑えられると主張している。なお、このテストには非公開の金融データが正解として使用されており、既存の汎用AIモデルはそのデータを事前学習する機会がなかった。「GPTやClaudeが失敗した」という表現の背景には、こうした評価条件の非対称性がある。
留意点
今回の評価結果はBridgewaterとThinking Machines Lab自身が公表したものであり、独立した第三者機関による検証は行われていない。業界特化の非公開ベンチマークで自社モデルが有利になるのは構造的に当然の傾向があり、数値の解釈には慎重さが求められる。金融業務への実用導入を検討する場合、外部検証データの公開を待つことが望ましい。
なぜ重要か
Bridgewaterとミラ・ムラティのAIが金融特化Qwen3を開発。自社検証のみで競合AIを精度・コスト両面で圧倒と主張するが第三者確認はない。
元記事を読む — The Decoder