
Reporter The Atlantic, Alex Reisner, berhasil mengungkap empat dataset musik yang selama ini digunakan untuk melatih model-model AI. Yang mengejutkan, dataset tersebut kini dibuat bisa dicari secara publik — artinya siapa pun bisa mengecek apakah lagu mereka masuk ke dalam data pelatihan AI itu.
Dua dari empat dataset itu ukurannya sangat besar: masing-masing 12 juta dan 9 juta trek musik. Dua sisanya lebih kecil, tapi tetap signifikan dengan masing-masing lebih dari 100.000 lagu. Dataset-dataset ini sudah diunduh ribuan kali, dan Google serta Stability AI sudah mengakui pernah menggunakannya — tercatat dalam paper riset mereka. Beberapa sumber dalam dataset, seperti Free Music Archive, memang bebas distreaming untuk penggunaan pribadi, tapi penggunaannya untuk melatih AI adalah cerita yang berbeda.
Temuan ini penting karena menyentuh isu hak cipta yang sedang jadi perdebatan besar di industri AI. Selama ini banyak musisi dan label rekaman yang curiga karya mereka dipakai tanpa izin untuk melatih sistem AI generatif — sekarang ada bukti konkret yang bisa dicek langsung. Ini bisa memperkuat posisi para seniman dalam tuntutan hukum yang sedang berjalan, sekaligus menekan perusahaan AI untuk lebih transparan soal data pelatihan mereka.
Yang menarik untuk diikuti adalah bagaimana industri musik dan regulator akan merespons temuan ini. Dengan database yang kini bisa diakses publik, bukan tidak mungkin akan muncul gelombang gugatan baru dari musisi atau label yang menemukan karyanya masuk tanpa izin — dan ini bisa jadi preseden penting bagi regulasi AI ke depan.