تصور کنید سالها روی خلق یک اثر هنری وقت گذاشته باشید، اما حالا آن اثر بدون اجازه و حتی بدون یک سنت دستمزد، تبدیل به سوختِ موتورهای هوش مصنوعی شده است. این کابوس برای ۲۱ میلیون آهنگساز و خواننده به واقعیت تبدیل شده است.
طبق گزارش The Atlantic در ۲۰ ژوئن ۲۰۲۶، یک پایگاهداده قابل جستوجو نشان میدهد که میلیونها قطعه موسیقی بدون مجوز تجاری برای آموزش مدلهای هوش مصنوعی زاینده (Generative AI) — که شبیه نقاشیگری است که تمام آثار دنیا را دیده و حالا میتواند هر چه بخواهید را بازسازی کند — به کار گرفته شدهاند. این پروژه که توسط الکس رایزنر هدایت شده، ابعاد گستردهٔ استخراج غیرقانونی دادهها در صنعت موسیقی را برملا میکند.
همانطور که در تحلیلهای قبلی ما دربارهی حقوق مالکیت فکری در عصر مدلهای بازمتن اشاره کردیم، تضاد شدیدی میان فلسفهی «وب آزاد» و حقوق هنرمندان وجود دارد. بسیاری تصور میکردند آموزش مدلها در محیطی بسته رخ میدهد، اما این کشف ثابت میکند مجموعهدادههای عظیم بهراحتی در اینترنت در دسترس هستند. این روند با تمایلات کلی در جامعهی پژوهشی همسو است، بهطوریکه گزارشهای اخیر arXiv نشان میدهد اشتراکگذاری کد و داده در مقالات هوش مصنوعی به شدت افزایش یافته است.

به گزارش The Verge، این پایگاهداده از چهار مجموعه اصلی تشکیل شده است:
- دو مجموعه عظیم با ۱۲ میلیون و ۹ میلیون آهنگ.
- دو مجموعه کوچکتر با بیش از ۱۰۰ هزار آهنگ در هر بخش.
- حضور هنرمندان تراز اولی مانند لیدی گاگا (Lady Gaga)، رادیوهد (Radiohead)، بروس اسپرینگستین (Bruce Springsteen) و گروه وو-تنگ کلن (Wu-Tang Clan).

بر اساس بررسیهای فنی رایزنر، این دادهها صرفاً فایلهای ZIP ساده نیستند. بیشتر این مجموعهها لیستی از لینکهای یوتیوب یا اسپاتیفای هستند. توسعهدهندگان AI با استفاده از ابزارهای اتوماسیون، صدا را از این پلتفرمها جدا میکنند و بهطور مستقیم تبلیغات و سیستمهای ورود کاربر را دور میزنند. این اقدام نقض صریح قوانین خدمات (ToS) پلتفرمهای میزبان است. interestingly، شرکتهای گوگل (Google) و استبیلیتی ایآی (Stability AI) در مقالات پژوهشی خود تایید کردهاند که از این دادهها استفاده کردهاند.
برای خلقکنندگان، این یعنی اثر انگشت دیجیتالی آنها پیش از این در مدلهای تجاری جای گرفته است. اکنون میدان نبرد حقوقی تغییر کرده است؛ بحث دیگر این نیست که آیا AI «میتواند» از موسیقی یاد بگیرد یا خیر، بلکه سوال این است که چگونه امنیت پلتفرمها برای این کار دور زده شده است.
گام بعدی شما
- اگر هنرمند یا تولیدکننده محتوا هستید، در سایت AI Watchdog متعلق به The Atlantic نام خود یا آثار مورد علاقهتان را جستوجو کنید.
- شرایط استفاده (Terms of Service) پلتفرمهایی که آثار خود را در آنها منتشر میکنید بازبینی کنید تا میزان کنترل شما بر دادهها مشخص شود.
- در صورت شناسایی آثار، با مشاوران حقوقی درباره مفاهیم «استفاده منصفانه» در مقابل «استخراج داده» مشورت کنید.
اما نبرد حقوقی بر سر دادهها تنها بخشی از ماجراست؛ بررسی میکنیم که چگونه مدلهای استدلالی جدید سعی میکنند بدون نیاز به حجم عظیم داده، یادگیری را بهینه کنند. این تلاشها برای بهینهسازی یادگیری، یادآور سرمایهگذاریهای کلان شرکتهایی مانند XDOF برای رفع گلوگاههای دادهای در رباتیک است تا وابستگی به مجموعهدادههای عظیم کاهش یابد.




گفتگو