2026年6月5日 21:10
MicrosoftのMAI、無許諾Webデータで学習と判明
Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"
3行まとめ
- •MicrosoftのMAIに無許諾Webデータ
- •Common Crawl利用、宣言と矛盾
- •他社同様フェアユースに依拠
詳細
背景
Microsoftは自社のLLM(大規模言語モデル)の学習手法を、他のAI企業とは異なる「エンタープライズグレードでクリーン、かつ商用ライセンス済みのデータ」だけを使うものとして宣伝してきた。安全性とコンプライアンスを訴求し、他社との差別化点としてきた。
内容
しかし新たに公開されたMAIモデルは、Common Crawlのような無許諾のWebデータを部分的に学習へ利用していたことが判明した。これは「クリーンで商用ライセンス済みデータのみ」という同社の説明と矛盾する。実態は他のAIラボと同様で、フェアユースを根拠としている。
今後の影響
AI学習データの著作権をめぐる議論が続くなか、大手企業の宣伝文句と実態の乖離が改めて浮き彫りになった。Microsoftは学習を望まないサイト運営者側にクローラーをブロックする責任を負わせる立場を取っている。
なぜ重要か
Microsoftの「クリーンなライセンス済みデータ」という企業向け訴求が実態と異なると判明し、AI各社の学習データの透明性が問われる。
元記事を読む — The Decoder