AIニュース3行まとめ
2026年6月5日 21:10

MicrosoftのMAI、無許諾Webデータで学習と判明

Microsoft trained its MAI models on unlicensed web data despite promising "enterprise grade, clean and commercially licensed data"

3行まとめ

  • MicrosoftのMAIに無許諾Webデータ
  • Common Crawl利用、宣言と矛盾
  • 他社同様フェアユースに依拠

詳細

背景

Microsoftは自社のLLM(大規模言語モデル)の学習手法を、他のAI企業とは異なる「エンタープライズグレードでクリーン、かつ商用ライセンス済みのデータ」だけを使うものとして宣伝してきた。安全性とコンプライアンスを訴求し、他社との差別化点としてきた。

内容

しかし新たに公開されたMAIモデルは、Common Crawlのような無許諾のWebデータを部分的に学習へ利用していたことが判明した。これは「クリーンで商用ライセンス済みデータのみ」という同社の説明と矛盾する。実態は他のAIラボと同様で、フェアユースを根拠としている。

今後の影響

AI学習データの著作権をめぐる議論が続くなか、大手企業の宣伝文句と実態の乖離が改めて浮き彫りになった。Microsoftは学習を望まないサイト運営者側にクローラーをブロックする責任を負わせる立場を取っている。

なぜ重要か

Microsoftの「クリーンなライセンス済みデータ」という企業向け訴求が実態と異なると判明し、AI各社の学習データの透明性が問われる。

元記事を読む — The Decoder

人気記事