2026年5月12日 05:00
GPT-5.5がベンチマーク最高でなくても開発者が熱狂する理由
3行まとめ
- •GPT-5.5はベンチマーク首位ではない
- •Codex連携と自走力が開発者に高評価
- •トークン効率の高さが実用コストを左右
詳細
背景
OpenAIが2026年4月23日に発表したGPT-5.5は、SWE-Bench Proで58.6%のスコアを記録したが、Claude Opus 4.7の64.3%には及ばず、ベンチマーク上の絶対王者ではない。API料金も前世代比で入出力トークンコストが2倍に上昇し、入力5ドル/100万トークン、出力30ドル/100万トークンという価格設定となっている。
開発者が評価するポイント
それでもエンジニアが熱狂する理由として、記事ではCodexとの組み合わせによる開発体験の向上、トークン効率の高さ、そして「最後まで自走する力」の3点を挙げている。ベンチマークのスコアだけでなく、実際の開発タスクを途中で止まらず最後まで完遂できる能力が、現場のエンジニアにとって最も重要な評価基準になっているという分析だ。
実用面での評価
トークン単価は上昇したものの、より短いトークン消費で目的の結果を得られるため、実際のコスト効率では優れる場面がある。ChatGPT、OpenAI API、GitHub Copilotなど複数プラットフォームで提供が開始されており、開発現場への浸透が進んでいる。
なぜ重要か
ベンチマーク至上主義ではなく「タスク完遂力」でモデルを評価する視点は、企業のAIツール選定基準に影響を与える。
元記事を読む — ITmedia AI+