درون استراتژی گوگل و Stability AI برای دور زدن قوانین پلتفرم‌ها

تصور کنید سال‌ها روی خلق یک اثر هنری وقت گذاشته باشید، اما حالا آن اثر بدون اجازه و حتی بدون یک سنت دستمزد، تبدیل به سوختِ موتورهای هوش مصنوعی شده است. این کابوس برای ۲۱ میلیون آهنگساز و خواننده به واقعیت تبدیل شده است.

طبق گزارش The Atlantic در ۲۰ ژوئن ۲۰۲۶، یک پایگاه‌داده قابل جست‌وجو نشان می‌دهد که میلیون‌ها قطعه موسیقی بدون مجوز تجاری برای آموزش مدل‌های هوش مصنوعی زاینده (Generative AI) — که شبیه نقاشی‌گری است که تمام آثار دنیا را دیده و حالا می‌تواند هر چه بخواهید را بازسازی کند — به کار گرفته شده‌اند. این پروژه که توسط الکس رایزنر هدایت شده، ابعاد گستردهٔ استخراج غیرقانونی داده‌ها در صنعت موسیقی را برملا می‌کند.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی حقوق مالکیت فکری در عصر مدل‌های بازمتن اشاره کردیم، تضاد شدیدی میان فلسفه‌ی «وب آزاد» و حقوق هنرمندان وجود دارد. بسیاری تصور می‌کردند آموزش مدل‌ها در محیطی بسته رخ می‌دهد، اما این کشف ثابت می‌کند مجموعه‌داده‌های عظیم به‌راحتی در اینترنت در دسترس هستند. این روند با تمایلات کلی در جامعه‌ی پژوهشی همسو است، به‌طوری‌که گزارش‌های اخیر arXiv نشان می‌دهد اشتراک‌گذاری کد و داده در مقالات هوش مصنوعی به شدت افزایش یافته است.

پایگاه داده قابل جستجوی آتلانتیک از موسیقی‌های استفاده‌شده برای آموزش هوش مصنوعی

به گزارش The Verge، این پایگاه‌داده از چهار مجموعه اصلی تشکیل شده است:

دو مجموعه عظیم با ۱۲ میلیون و ۹ میلیون آهنگ.
دو مجموعه کوچک‌تر با بیش از ۱۰۰ هزار آهنگ در هر بخش.
حضور هنرمندان تراز اولی مانند لیدی گاگا (Lady Gaga)، رادیوهد (Radiohead)، بروس اسپرینگستین (Bruce Springsteen) و گروه وو-تنگ کلن (Wu-Tang Clan).

پایگاه داده قابل جستجوی آتلانتیک از موسیقی‌های استفاده‌شده برای آموزش هوش مصنوعی

بر اساس بررسی‌های فنی رایزنر، این داده‌ها صرفاً فایل‌های ZIP ساده نیستند. بیشتر این مجموعه‌ها لیستی از لینک‌های یوتیوب یا اسپاتیفای هستند. توسعه‌دهندگان AI با استفاده از ابزارهای اتوماسیون، صدا را از این پلتفرم‌ها جدا می‌کنند و به‌طور مستقیم تبلیغات و سیستم‌های ورود کاربر را دور می‌زنند. این اقدام نقض صریح قوانین خدمات (ToS) پلتفرم‌های میزبان است. interestingly، شرکت‌های گوگل (Google) و استبیلیتی ای‌آی (Stability AI) در مقالات پژوهشی خود تایید کرده‌اند که از این داده‌ها استفاده کرده‌اند.

برای خلق‌کنندگان، این یعنی اثر انگشت دیجیتالی آن‌ها پیش از این در مدل‌های تجاری جای گرفته است. اکنون میدان نبرد حقوقی تغییر کرده است؛ بحث دیگر این نیست که آیا AI «می‌تواند» از موسیقی یاد بگیرد یا خیر، بلکه سوال این است که چگونه امنیت پلتفرم‌ها برای این کار دور زده شده است.

گام بعدی شما

اگر هنرمند یا تولیدکننده محتوا هستید، در سایت AI Watchdog متعلق به The Atlantic نام خود یا آثار مورد علاقه‌تان را جست‌وجو کنید.
شرایط استفاده (Terms of Service) پلتفرم‌هایی که آثار خود را در آن‌ها منتشر می‌کنید بازبینی کنید تا میزان کنترل شما بر داده‌ها مشخص شود.
در صورت شناسایی آثار، با مشاوران حقوقی درباره مفاهیم «استفاده منصفانه» در مقابل «استخراج داده» مشورت کنید.

اما نبرد حقوقی بر سر داده‌ها تنها بخشی از ماجراست؛ بررسی می‌کنیم که چگونه مدل‌های استدلالی جدید سعی می‌کنند بدون نیاز به حجم عظیم داده، یادگیری را بهینه کنند. این تلاش‌ها برای بهینه‌سازی یادگیری، یادآور سرمایه‌گذاری‌های کلان شرکت‌هایی مانند XDOF برای رفع گلوگاه‌های داده‌ای در رباتیک است تا وابستگی به مجموعه‌داده‌های عظیم کاهش یابد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پایگاه داده قابل جستجوی آتلانتیک از موسیقی‌های استفاده‌شده برای آموزش هوش مصنوعی

به گزارش The Verge، این پایگاه‌داده از چهار مجموعه اصلی تشکیل شده است:

دو مجموعه عظیم با ۱۲ میلیون و ۹ میلیون آهنگ.
دو مجموعه کوچک‌تر با بیش از ۱۰۰ هزار آهنگ در هر بخش.
حضور هنرمندان تراز اولی مانند لیدی گاگا (Lady Gaga)، رادیوهد (Radiohead)، بروس اسپرینگستین (Bruce Springsteen) و گروه وو-تنگ کلن (Wu-Tang Clan).

پایگاه داده قابل جستجوی آتلانتیک از موسیقی‌های استفاده‌شده برای آموزش هوش مصنوعی

گام بعدی شما

اگر هنرمند یا تولیدکننده محتوا هستید، در سایت AI Watchdog متعلق به The Atlantic نام خود یا آثار مورد علاقه‌تان را جست‌وجو کنید.
شرایط استفاده (Terms of Service) پلتفرم‌هایی که آثار خود را در آن‌ها منتشر می‌کنید بازبینی کنید تا میزان کنترل شما بر داده‌ها مشخص شود.
در صورت شناسایی آثار، با مشاوران حقوقی درباره مفاهیم «استفاده منصفانه» در مقابل «استخراج داده» مشورت کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی گوگل و Stability AI برای دور زدن قوانین پلتفرم‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی گوگل و Stability AI برای دور زدن قوانین پلتفرم‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی گوگل و Stability AI برای دور زدن قوانین پلتفرم‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی گوگل و Stability AI برای دور زدن قوانین پلتفرم‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران