تصور کنید قدرتمندترین مدلهای هوش مصنوعی جهان بر روی کوهی از کتابهای دزدی بنا شده باشند. اگر فکر میکنید دادههای وب رایگان هستند، باید بدانید متا در حال تجربه یک کابوس حقوقی است که میتواند تعریف «مالکیت» را در عصر دیجیتال تغییر دهد.
به نقل از دادخواستی که در ۵ مه ۲۰۲۶ در دادگاه منطقه جنوبی نیویورک ثبت شد، پنج ناشر بزرگ از جمله Hachette، Macmillan و Elsevier به همراه اسکات تورو، علیه متا و مارک زاکربرگ اقامه دعوا کردهاند. طبق این ادعا، متا برای آموزش سیستم هوش مصنوعی زاینده (Generative AI) خود یعنی Llama، میلیونها کتاب و مقاله را از سایتهای غیرقانونی مانند LibGen دانلود کرده است.

بر اساس مستندات این پرونده، حجم دادههای دزدی شده به ۲۶۷ ترابایت میرسد؛ مقداری که از کل مجموعه چاپی کتابخانه کنگره آمریکا بیشتر است. اما شوکهکنندهترین بخش این گزارش، نقش مستقیم مارک زاکربرگ است. طبق گزارشهای منتشر شده، زاکربرگ در اوایل آوریل ۲۰۲۳ شخصاً به تیم توسعه کسبوکار دستور داد تا از انعقاد قراردادهای لایسنس (Licensing) دست بکشند.

یک کارمند متا در یادداشتی اشاره کرده است که حتی خرید لایسنس یک تککتاب، استراتژی شرکت برای تکیه بر «استفاده منصفانه» (Fair Use) را به خطر میاندازد. اتهامات کلیدی این پرونده عبارتند از:
- حذف عمدی اطلاعات مدیریت کپیرایت برای پنهان کردن منابع آموزشی.
- تولید نسخههای تقلیدی و کپیهای کلمه به کلمه از کتابهای درسی دانشگاهی.
- توانایی Llama در تقلید دقیق از سبک نوشتاری نویسندگان خاص.
همانطور که در تحلیل قبلی ما دربارهی سیستم IKBO و کاهش تأخیر در استنتاج (Inference) اشاره کردیم، متا همیشه به دنبال بهینهسازیهای تهاجمی است، اما این بار هدف به جای سختافزار، دادههای خام است. در حالی که در ژوئن ۲۰۲۵ دادگاهی ادعاهای مشابه ۱۳ نویسنده را رد کرد، شاکیان فعلی معتقدند مقیاس عظیم و عمدی بودن این دزدی، موضوع را از دایره «استفاده منصفانه» خارج میکند.
سخنگوی متا مدعی است که دادگاهها پیش از این تایید کردهاند آموزش مدلها بر اساس دادههای کپیرایت قانونی است. اما این نبرد تعیین میکند که آیا نسل بعدی مدلهای بنیادی میتوانند به وب آزاد تکیه کنند یا باید برای هر توکن هزینه پرداخت کنند.
این تنها آغاز ماجراست؛ اثر موجگونهی این تصمیم بر اکوسیستم مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر توسعهدهنده هستید، استراتژیهای مبنیسازی (Grounding) را جایگزین تکیه مطلق بر دادههای آموزشی کنید.
- روی مدلهای کوچکتر که با دادههای تاییدشده (Curated Data) آموزش دیدهاند، سرمایهگذاری کنید.
- روند تغییرات قانونی «استفاده منصفانه» در دادگاههای آمریکا را دنبال کنید.




گفتگو