۲۶۷ ترابایت کتاب دزدی؛ پرونده‌ای که می‌تواند Llama را متوقف کند

تصور کنید قدرتمندترین مدل‌های هوش مصنوعی جهان بر روی کوهی از کتاب‌های دزدی بنا شده باشند. اگر فکر می‌کنید داده‌های وب رایگان هستند، باید بدانید متا در حال تجربه یک کابوس حقوقی است که می‌تواند تعریف «مالکیت» را در عصر دیجیتال تغییر دهد.

به نقل از دادخواستی که در ۵ مه ۲۰۲۶ در دادگاه منطقه جنوبی نیویورک ثبت شد، پنج ناشر بزرگ از جمله Hachette، Macmillan و Elsevier به همراه اسکات تورو، علیه متا و مارک زاکربرگ اقامه دعوا کرده‌اند. طبق این ادعا، متا برای آموزش سیستم هوش مصنوعی زاینده (Generative AI) خود یعنی Llama، میلیون‌ها کتاب و مقاله را از سایت‌های غیرقانونی مانند LibGen دانلود کرده است.

Meta CEO Mark Zuckerberg

بر اساس مستندات این پرونده، حجم داده‌های دزدی شده به ۲۶۷ ترابایت می‌رسد؛ مقداری که از کل مجموعه چاپی کتابخانه کنگره آمریکا بیشتر است. اما شوکه‌کننده‌ترین بخش این گزارش، نقش مستقیم مارک زاکربرگ است. طبق گزارش‌های منتشر شده، زاکربرگ در اوایل آوریل ۲۰۲۳ شخصاً به تیم توسعه کسب‌وکار دستور داد تا از انعقاد قراردادهای لایسنس (Licensing) دست بکشند.

یک کارمند متا در یادداشتی اشاره کرده است که حتی خرید لایسنس یک تک‌کتاب، استراتژی شرکت برای تکیه بر «استفاده منصفانه» (Fair Use) را به خطر می‌اندازد. اتهامات کلیدی این پرونده عبارتند از:

حذف عمدی اطلاعات مدیریت کپی‌رایت برای پنهان کردن منابع آموزشی.
تولید نسخه‌های تقلیدی و کپی‌های کلمه به کلمه از کتاب‌های درسی دانشگاهی.
توانایی Llama در تقلید دقیق از سبک نوشتاری نویسندگان خاص.

همان‌طور که در تحلیل قبلی ما درباره‌ی سیستم IKBO و کاهش تأخیر در استنتاج (Inference) اشاره کردیم، متا همیشه به دنبال بهینه‌سازی‌های تهاجمی است، اما این بار هدف به جای سخت‌افزار، داده‌های خام است. در حالی که در ژوئن ۲۰۲۵ دادگاهی ادعاهای مشابه ۱۳ نویسنده را رد کرد، شاکیان فعلی معتقدند مقیاس عظیم و عمدی بودن این دزدی، موضوع را از دایره «استفاده منصفانه» خارج می‌کند.

سخنگوی متا مدعی است که دادگاه‌ها پیش از این تایید کرده‌اند آموزش مدل‌ها بر اساس داده‌های کپی‌رایت قانونی است. اما این نبرد تعیین می‌کند که آیا نسل بعدی مدل‌های بنیادی می‌توانند به وب آزاد تکیه کنند یا باید برای هر توکن هزینه پرداخت کنند.

این تنها آغاز ماجراست؛ اثر موج‌گونه‌ی این تصمیم بر اکوسیستم مدل‌های بازمتن را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

اگر توسعه‌دهنده هستید، استراتژی‌های مبنی‌سازی (Grounding) را جایگزین تکیه مطلق بر داده‌های آموزشی کنید.
روی مدل‌های کوچک‌تر که با داده‌های تاییدشده (Curated Data) آموزش دیده‌اند، سرمایه‌گذاری کنید.
روند تغییرات قانونی «استفاده منصفانه» در دادگاه‌های آمریکا را دنبال کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Meta CEO Mark Zuckerberg

حذف عمدی اطلاعات مدیریت کپی‌رایت برای پنهان کردن منابع آموزشی.
تولید نسخه‌های تقلیدی و کپی‌های کلمه به کلمه از کتاب‌های درسی دانشگاهی.
توانایی Llama در تقلید دقیق از سبک نوشتاری نویسندگان خاص.

گام بعدی شما

اگر توسعه‌دهنده هستید، استراتژی‌های مبنی‌سازی (Grounding) را جایگزین تکیه مطلق بر داده‌های آموزشی کنید.
روی مدل‌های کوچک‌تر که با داده‌های تاییدشده (Curated Data) آموزش دیده‌اند، سرمایه‌گذاری کنید.
روند تغییرات قانونی «استفاده منصفانه» در دادگاه‌های آمریکا را دنبال کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۲۶۷ ترابایت کتاب دزدی؛ پرونده‌ای که می‌تواند Llama را متوقف کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۲۶۷ ترابایت کتاب دزدی؛ پرونده‌ای که می‌تواند Llama را متوقف کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۲۶۷ ترابایت کتاب دزدی؛ پرونده‌ای که می‌تواند Llama را متوقف کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۲۶۷ ترابایت کتاب دزدی؛ پرونده‌ای که می‌تواند Llama را متوقف کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران