«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

تصور کنید میلیاردها دلار هزینه برای آموزش امنیتی، تنها با چند مرحله تنظیم ساده به باد رود. باید بدانید که لایه‌های حفاظاری مدل‌های زبانی، نه یک درمان، بلکه تنها یک نقاب هستند.

طبق اعلام پژوهشگران در ۳۰ آوریل ۲۰۲۶، پروژه‌ای به نام «Alignment Whack-a-Mole» ثابت کرد که تنظیم دقیق (Fine-tuning) می‌تواند حافظه‌ی متون کپی‌رایت شده را در مدل‌های GPT-4o، Gemini-2.5-Pro و DeepSeek-V3.1 فعال کند. به نقل از مخزن گیت‌هاب این پروژه، در حالی که این مدل‌ها در حالت عادی درخواست‌های مستقیم برای متون دارای کپی‌رایت را رد می‌کنند، یک رژیم خاص از تنظیمات می‌تواند این دانش پنهان را «باز کند».

تیم تحقیق برای شناسایی این آسیب‌پذیری از یک خط لوله (Pipeline) سخت‌گیرانه استفاده کردند:

آماده‌سازی داده‌ها: تبدیل فایل‌های EPUB به قطعات کوچک همراه با خلاصه‌ی داستان.
محرک دستوری: تنظیم دقیق مدل‌ها با دستوراتی برای «شبیه‌سازی سبک و لحن» نویسنده بر اساس آن خلاصه‌ها.
تأییدیه: نمونه‌برداری از ۱۰۰ پاسخ برای هر بخش با دمای (Temperature) ۱.۰ برای اندازه‌گیری میزان نشت واژه به واژه‌ی متون.

برای کمی‌سازی این شکست، محققان معیارهای جدیدی از جمله BMC@k را معرفی کردند که سهم یک کتاب را که در پاسخ‌های مدل تکرار شده است، اندازه‌گیری می‌کند. آن‌ها همچنین «طولانی‌ترین بازه‌ی تکرار شده‌ی متوالی» را رصد کردند تا شدیدترین موارد بازگشت حافظه را شناسایی کنند.

همان‌طور که در تحلیل قبلی ما درباره‌ی ریسک‌های مدل‌های بازمتن اشاره کردیم، این کشف شکافی حیاتی در استراتژی‌های فعلی همراستاسازی (Alignment) را برملا می‌کند. این موضوع نشان می‌دهد که یادگیری تقویت‌شده از بازخورد انسانی (RLHF) و سایر لایه‌های امنیتی، داده‌های حساس را از وزن‌های مدل پاک نمی‌کنند، بلکه فقط به مدل می‌آموزند که آن‌ها را پنهان کند. با تغییر بافتار (Context) از طریق تنظیم دقیق، اثر «Whack-a-Mole» داده‌های حفظ‌شده را دوباره به سطح می‌آورد.

با شدت گرفتن نبردهای حقوقی بر سر داده‌های آموزشی، این یافته یک پرسش بنیادین را ایجاد می‌کند: آیا آزمایشگاه‌های هوش مصنوعی هرگز می‌توانند متون کپی‌رایت شده را واقعاً «فراموش کنند»، یا ریسک نشت داده‌ها یک نقص ذاتی در معماری ترنسفورمر است؟

اما این حفره امنیتی تنها نیمی از داستان است؛ تأثیر این یافته‌ها بر آینده‌ی مدل‌های استدلالی (Reasoning Models) را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

اگر از مدل‌های باز با وزن‌های باز استفاده می‌کنید، خط لوله‌های تنظیم دقیق خود را برای نشت داده‌های حساس بررسی کنید.
در پرامپت‌های خود از دستورات «شبیه‌سازی سبک» با احتیاط استفاده کنید، زیرا این دستورات سریع‌ترین راه برای فعال کردن حافظه‌ی پنهان مدل هستند.
مستندات پروژه Alignment Whack-a-Mole را در گیت‌هاب برای درک معیارهای BMC@k مطالعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تیم تحقیق برای شناسایی این آسیب‌پذیری از یک خط لوله (Pipeline) سخت‌گیرانه استفاده کردند:

آماده‌سازی داده‌ها: تبدیل فایل‌های EPUB به قطعات کوچک همراه با خلاصه‌ی داستان.
محرک دستوری: تنظیم دقیق مدل‌ها با دستوراتی برای «شبیه‌سازی سبک و لحن» نویسنده بر اساس آن خلاصه‌ها.
تأییدیه: نمونه‌برداری از ۱۰۰ پاسخ برای هر بخش با دمای (Temperature) ۱.۰ برای اندازه‌گیری میزان نشت واژه به واژه‌ی متون.

گام بعدی شما

اگر از مدل‌های باز با وزن‌های باز استفاده می‌کنید، خط لوله‌های تنظیم دقیق خود را برای نشت داده‌های حساس بررسی کنید.
در پرامپت‌های خود از دستورات «شبیه‌سازی سبک» با احتیاط استفاده کنید، زیرا این دستورات سریع‌ترین راه برای فعال کردن حافظه‌ی پنهان مدل هستند.
مستندات پروژه Alignment Whack-a-Mole را در گیت‌هاب برای درک معیارهای BMC@k مطالعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«ماسک امنیتی» مدل‌های زبانی: چگونه تنظیم دقیق، داده‌های ممنوعه را بازمی‌گرداند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران