تصور کنید میلیاردها دلار هزینه برای آموزش امنیتی، تنها با چند مرحله تنظیم ساده به باد رود. باید بدانید که لایههای حفاظاری مدلهای زبانی، نه یک درمان، بلکه تنها یک نقاب هستند.
طبق اعلام پژوهشگران در ۳۰ آوریل ۲۰۲۶، پروژهای به نام «Alignment Whack-a-Mole» ثابت کرد که تنظیم دقیق (Fine-tuning) میتواند حافظهی متون کپیرایت شده را در مدلهای GPT-4o، Gemini-2.5-Pro و DeepSeek-V3.1 فعال کند. به نقل از مخزن گیتهاب این پروژه، در حالی که این مدلها در حالت عادی درخواستهای مستقیم برای متون دارای کپیرایت را رد میکنند، یک رژیم خاص از تنظیمات میتواند این دانش پنهان را «باز کند».
تیم تحقیق برای شناسایی این آسیبپذیری از یک خط لوله (Pipeline) سختگیرانه استفاده کردند:
- آمادهسازی دادهها: تبدیل فایلهای EPUB به قطعات کوچک همراه با خلاصهی داستان.
- محرک دستوری: تنظیم دقیق مدلها با دستوراتی برای «شبیهسازی سبک و لحن» نویسنده بر اساس آن خلاصهها.
- تأییدیه: نمونهبرداری از ۱۰۰ پاسخ برای هر بخش با دمای (Temperature) ۱.۰ برای اندازهگیری میزان نشت واژه به واژهی متون.
برای کمیسازی این شکست، محققان معیارهای جدیدی از جمله BMC@k را معرفی کردند که سهم یک کتاب را که در پاسخهای مدل تکرار شده است، اندازهگیری میکند. آنها همچنین «طولانیترین بازهی تکرار شدهی متوالی» را رصد کردند تا شدیدترین موارد بازگشت حافظه را شناسایی کنند.
همانطور که در تحلیل قبلی ما دربارهی ریسکهای مدلهای بازمتن اشاره کردیم، این کشف شکافی حیاتی در استراتژیهای فعلی همراستاسازی (Alignment) را برملا میکند. این موضوع نشان میدهد که یادگیری تقویتشده از بازخورد انسانی (RLHF) و سایر لایههای امنیتی، دادههای حساس را از وزنهای مدل پاک نمیکنند، بلکه فقط به مدل میآموزند که آنها را پنهان کند. با تغییر بافتار (Context) از طریق تنظیم دقیق، اثر «Whack-a-Mole» دادههای حفظشده را دوباره به سطح میآورد.
با شدت گرفتن نبردهای حقوقی بر سر دادههای آموزشی، این یافته یک پرسش بنیادین را ایجاد میکند: آیا آزمایشگاههای هوش مصنوعی هرگز میتوانند متون کپیرایت شده را واقعاً «فراموش کنند»، یا ریسک نشت دادهها یک نقص ذاتی در معماری ترنسفورمر است؟
اما این حفره امنیتی تنها نیمی از داستان است؛ تأثیر این یافتهها بر آیندهی مدلهای استدلالی (Reasoning Models) را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر از مدلهای باز با وزنهای باز استفاده میکنید، خط لولههای تنظیم دقیق خود را برای نشت دادههای حساس بررسی کنید.
- در پرامپتهای خود از دستورات «شبیهسازی سبک» با احتیاط استفاده کنید، زیرا این دستورات سریعترین راه برای فعال کردن حافظهی پنهان مدل هستند.
- مستندات پروژه Alignment Whack-a-Mole را در گیتهاب برای درک معیارهای BMC@k مطالعه کنید.




گفتگو