2026年6月5日 21:10

MicrosoftのMAI、無許諾Webデータで学習と判明

Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"

3行まとめ

Microsoftは自社のLLM（大規模言語モデル）の学習手法を、他のAI企業とは異なる「エンタープライズグレードでクリーン、かつ商用ライセンス済みのデータ」だけを使うものとして宣伝してきた。安全性とコンプライアンスを訴求し、他社との差別化点としてきた。

しかし新たに公開されたMAIモデルは、Common Crawlのような無許諾のWebデータを部分的に学習へ利用していたことが判明した。これは「クリーンで商用ライセンス済みデータのみ」という同社の説明と矛盾する。実態は他のAIラボと同様で、フェアユースを根拠としている。

AI学習データの著作権をめぐる議論が続くなか、大手企業の宣伝文句と実態の乖離が改めて浮き彫りになった。Microsoftは学習を望まないサイト運営者側にクローラーをブロックする責任を負わせる立場を取っている。

Microsoftの「クリーンなライセンス済みデータ」という企業向け訴求が実態と異なると判明し、AI各社の学習データの透明性が問われる。