اگر قصد دارید دادههای حساس یا خصوصی را از یک مدل زبانی بزرگ (Large Language Model) پاک کنید، احتمالاً با تخریب تواناییهای کلی مدل مواجه شدهاید. این «فراموشی فاجعهبار» تا امروز پاشنه آشال ایمنی در مدلهای زبانی بوده است.
در روشهای پیشین، تلاش برای حذف یک پاسخ ممنوعه منجر به تغییراتی میشد که به طور پیشبینیناپذیری بر سایر وزنهای مدل اثر میگذاشت. همانطور که در تحلیلهای قبلی ما دربارهی همراستاسازی (Alignment) مدلها اشاره کردیم، تعادل بین ایمنی و کارایی همیشه یک چالش دشوار بوده است.
بر اساس مقالهای که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، پژوهشگران با معرفی چارچوب NSRU (Null-Space Constrained Response-Specified Unlearning) این مشکل را حل کردهاند. طبق گزارش arxiv.org، این سیستم از یک ساختار تطبیق رتبه پایین (Low-Rank Adaptation یا LoRA) با محدودیت تصویر استفاده میکند که از سه رکن اصلی تشکیل شده است:
- تخمین زیرفضای حفظ (Retain Subspace Estimation): شناسایی بخشهایی از نمایشهای پنهان که باید دستنخورده باقی بمانند.
- تصویر متعامد (Orthogonal Projection): محصور کردن بهروزرسانیهای LoRA در «فضای پوچ» (Null Space) برای جلوگیری از تداخل با دانش حیاتی.
- یادگیری هدف امن (Safe-Target Learning): بهینهسازی پاسخهای ساختارمند به جای حذف ساده.
در آزمایشهای انجامشده روی مجموعه داده TOFU، این روش نه تنها دانش ممنوعه را حذف کرد، بلکه عملکرد پاسخدهی مدل در موارد حفظشده را بهبود بخشید. همچنین در بنچمارک WMDP، دقت مدل در شناسایی حوزههای خطرناک به سطح تصادفی رسید، در حالی که کارایی کلی در آزمون MMLU حفظ شد.
این دستاورد فرضیه قدیمی مبنی بر اینکه «حذف دانش لزوماً به قیمت کاهش استدلال میپردازد» را میشکند. با جداسازی جهتهای قابل ویرایش از زیرفضاهای عملکردی دائمی، توسعهدهندگان اکنون میتوانند با اطمینان بیشتری برای انطباق با قوانین کپیرایت و حریم خصوصی عمل کنند.
گام بعدی شما
- بررسی مقیاسپذیری NSRU در مدلهای تریلیون-پارامتری برای شناسایی گلوگاههای محاسباتی.
- تحلیل هزینه استنتاج ناشی از تخمین زیرفضاهای حفظ در محیطهای عملیاتی.
- آزمایش متد NSRU بر روی دادههای فارسی برای سنجش نرخ فراموشی در زبانهای با منابع کمتر.
ama داستان اثر این جراحیِ دقیق بر حافظه بلندمدت مدلها هنوز ناشناخته است — به بررسی ما دربارهی پنجرههای متنی گسترده مراجعه کنید.



گفتگو