2026年6月9日 02:57
Microsoft、画像生成AI「Lens」を公開
Microsoft Research's Lens proves detailed captions matter more than raw scale for training efficient image generators
3行まとめ
- •Microsoftが画像生成AI「Lens」公開
- •38億パラメータで大型モデルに匹敵
- •詳細な説明文が規模より重要と実証
詳細
背景
これまでテキストから画像を生成するAIは、性能向上のためにパラメータ数(モデルの規模)を増やす方向で開発が進められてきた。しかし大規模化は学習コストの増大を招き、開発できる組織が限られるという課題があった。Microsoft Researchはこの常識に対し、学習データの質に着目した。
内容
Microsoft Researchが公開した「Lens」は、わずか38億パラメータながら、より大規模な競合モデルと同等のベンチマーク性能を、はるかに低い学習コストで実現した。鍵となったのは、Web上の曖昧な代替テキストではなく、GPT-4.1で生成した8億件の詳細な画像説明文を学習に用いた点である。コードとモデルの重みはオープンソースライセンスで公開されている。
今後の影響
この成果は、モデルの規模よりも学習データの質が効率を左右することを実証した。低コストで高性能な画像生成AIの開発が可能になり、潤沢な計算資源を持たない研究機関や企業にも開発の門戸が広がる。
なぜ重要か
学習データの質が規模に勝ることを示した研究で、低コストで高性能な画像生成AIを開発する新たな道を開いた。
元記事を読む — The Decoder