1200万曲、91年分——The Atlanticが発見したAI音楽モデルの学習データセット

昨年11月、フィギュアスケートの試合で奇妙なことが起きた。

チェコのアイスダンスペアが演技に使ったAI生成の楽曲に、1998年のポップヒット「You Get What You Give」（New Radicals）の歌詞がそのまま含まれていた。「Every night we smash a Mercedes-Benz」——元曲の歌詞だ。曲調はボン・ジョヴィ風のアリーナロックに変換されていたが、歌詞の一部は原曲のままだった。

AIが学習した楽曲の内容を「記憶」して再現する現象は、決して珍しくない。The Atlanticの調査報道がこの問いに向き合い、AI開発者コミュニティで実際に流通している巨大データセット4種を特定した。

何が見つかったのか

The AtlanticのライターAlex Reisnerが、AI研究の論文やデータ共有サイトを調査する中で辿り着いた4種のデータセットだ。

最大のもの：1200万曲。聴き続けても91年かかる量。
次に大きいもの：900万曲。
2種の小規模データセット：それぞれ10万曲以上。

このデータセットには、Bad Bunny、Nirvana、Taylor Swift、Billie Eilish、Pearl Jam、Elvis Costello、Sheryl Crow、The Beatles——といった著名なポップアーティストから、Miles Davis、John Zorn、Vijay Iyerといったジャズ・クラシック方面まで、ジャンルと時代を横断して含まれている。New Radicalsの「You Get What You Give」は、4種のうち2種に収録されていた。

どうやって集めたのか

4種のうち3種は、YouTubeやSpotifyの楽曲URLのリストとして配布されている。AI開発者はそのリストを使い、ダウンロードを自動化するツールで実際の音声ファイルを取得する。こうしたツールの多くは、ログイン・広告・保護機構を迂回する機能を持っており、プラットフォームの利用規約に違反している。

残る1種は、Free Music Archive（FMA）からの音源をMP3として直接配布したものだ。FMAにはCreative Commonsライセンスで公開された楽曲が多数含まれているが、利用条件は楽曲ごとに異なる。商用利用可能なものもあれば、非商用利用に限定されたものも存在する。

実際に誰が使ったのか

これが「可能性の話」ではないことを示す証拠がある。

GoogleはFMAのデータセット（10万曲以上）を使って音楽AIモデルを学習したと論文に記述している。Stability AIも同データセットの一部楽曲を使用していたことが確認されている。今回特定された4種のデータセット全体をGoogleが利用していたわけではなく、確認されているのはFMAなど一部の公開データセットへの利用だ。Googleは同社が「YouTubeとGoogleが利用する権利を持つ素材」のみで学習していると声明しているが、FMAの各楽曲ライセンス条件との整合性については明言を避けた。

Sunoは2024年の法廷文書のなかで、「ダウンロード可能な、合理的な品質を持つほぼ全ての音楽ファイル」を学習に使用したと述べている。2022年にGoogleが別のAIモデルを学習させた際は4400万曲（42年分）を使用。2020年にOpenAIが音楽生成モデル「Jukebox」を開発した際は120万曲をウェブからスクレイピングした。

The Atlanticが発見した4種のデータセットは、こうした大規模学習に使われ得る素材が開発者コミュニティの中で広く流通していることを示している。

なぜ今これが重要か

SunoやUdioへの著作権訴訟では、学習データの具体的な件数や内容が法廷で争われてきた。しかしAI企業側は一貫して「学習データは企業秘密」として非公開を維持しようとしてきた。

The Atlanticの調査が示したのは別の側面だ。訴訟で明らかになるのを待たずとも、研究論文とデータ共有サイトを追うだけで、実際にどんな音楽が学習材料として流通しているかを相当程度まで把握できる、ということだ。

AI企業の多くは「フェアユース」論拠で著作権侵害の主張を退けようとしている。学習行為そのものは既存の市場を害しないため、著作権法上の例外（フェアユース）に当たるという主張だ。SunoやUdioを含む音楽生成AIについては、出力結果が既存曲に類似しているとの指摘がたびたび行われており、AI学習と著作権の関係について新たな論争を生んでいる。

今後どう展開しそうか

The Atlanticの記事は、この問いを解決しない。明らかにするだけだ。

業界はいま二方向に動いている。UdioはNMPAとの業界横断ライセンス契約を締結し、「適切な許可を得て運営するAI音楽プラットフォーム」の前例をつくろうとしている。KLAYは3大メジャーとのライセンス交渉を先行させてからプラットフォームをローンチしようとしている。一方でSunoはフェアユース防御を法廷で確立しようと構えている。

どの道が業界標準になるのか——それはまだわからない。ただ、「学習に何を使ったのか」という問いは、裁判所の外からも詰められはじめている。

作り手・聴き手への示唆

AIが「記憶」するのは偶然ではない。十分な量の楽曲を学習すれば、統計的に「よく似た構造」が自然と出力される。それが個別の曲に対して意図的な模倣か、確率的な収束かは、現状のAI技術では判別が難しい。

AI音楽を使って作品を作る場合、出力されたトラックが既存曲に似ている可能性は「ゼロではない」と認識しておく必要がある。アイスダンスペアが気づかなかったように、使い手も似ていることに気づかないケースがある。

学習データの透明化は、ユーザーが安心してAI音楽を使うための前提条件になりつつある。

ソース

The Atlantic: "The Millions of Songs Mashed Into AI-Generated Music" (2026-06-14): https://www.theatlantic.com/technology/2026/06/ai-music-generators-suno-google-udio/687485/