سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

اگر قصد دارید داده‌های حساس یا خصوصی را از یک مدل زبانی بزرگ (Large Language Model) پاک کنید، احتمالاً با تخریب توانایی‌های کلی مدل مواجه شده‌اید. این «فراموشی فاجعه‌بار» تا امروز پاشنه آشال ایمنی در مدل‌های زبانی بوده است.

در روش‌های پیشین، تلاش برای حذف یک پاسخ ممنوعه منجر به تغییراتی می‌شد که به طور پیش‌بینی‌ناپذیری بر سایر وزن‌های مدل اثر می‌گذاشت. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی همراستاسازی (Alignment) مدل‌ها اشاره کردیم، تعادل بین ایمنی و کارایی همیشه یک چالش دشوار بوده است.

بر اساس مقاله‌ای که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، پژوهشگران با معرفی چارچوب NSRU (Null-Space Constrained Response-Specified Unlearning) این مشکل را حل کرده‌اند. طبق گزارش arxiv.org، این سیستم از یک ساختار تطبیق رتبه پایین (Low-Rank Adaptation یا LoRA) با محدودیت تصویر استفاده می‌کند که از سه رکن اصلی تشکیل شده است:

تخمین زیرفضای حفظ (Retain Subspace Estimation): شناسایی بخش‌هایی از نمایش‌های پنهان که باید دست‌نخورده باقی بمانند.
تصویر متعامد (Orthogonal Projection): محصور کردن به‌روزرسانی‌های LoRA در «فضای پوچ» (Null Space) برای جلوگیری از تداخل با دانش حیاتی.
یادگیری هدف امن (Safe-Target Learning): بهینه‌سازی پاسخ‌های ساختارمند به جای حذف ساده.

در آزمایش‌های انجام‌شده روی مجموعه داده TOFU، این روش نه تنها دانش ممنوعه را حذف کرد، بلکه عملکرد پاسخ‌دهی مدل در موارد حفظ‌شده را بهبود بخشید. همچنین در بنچمارک WMDP، دقت مدل در شناسایی حوزه‌های خطرناک به سطح تصادفی رسید، در حالی که کارایی کلی در آزمون MMLU حفظ شد.

این دستاورد فرضیه قدیمی مبنی بر اینکه «حذف دانش لزوماً به قیمت کاهش استدلال می‌پردازد» را می‌شکند. با جداسازی جهت‌های قابل ویرایش از زیرفضاهای عملکردی دائمی، توسعه‌دهندگان اکنون می‌توانند با اطمینان بیشتری برای انطباق با قوانین کپی‌رایت و حریم خصوصی عمل کنند.

گام بعدی شما

بررسی مقیاس‌پذیری NSRU در مدل‌های تریلیون-پارامتری برای شناسایی گلوگاه‌های محاسباتی.
تحلیل هزینه استنتاج ناشی از تخمین زیرفضاهای حفظ در محیط‌های عملیاتی.
آزمایش متد NSRU بر روی داده‌های فارسی برای سنجش نرخ فراموشی در زبان‌های با منابع کمتر.

ama داستان اثر این جراحیِ دقیق بر حافظه بلندمدت مدل‌ها هنوز ناشناخته است — به بررسی ما درباره‌ی پنجره‌های متنی گسترده مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تخمین زیرفضای حفظ (Retain Subspace Estimation): شناسایی بخش‌هایی از نمایش‌های پنهان که باید دست‌نخورده باقی بمانند.
تصویر متعامد (Orthogonal Projection): محصور کردن به‌روزرسانی‌های LoRA در «فضای پوچ» (Null Space) برای جلوگیری از تداخل با دانش حیاتی.
یادگیری هدف امن (Safe-Target Learning): بهینه‌سازی پاسخ‌های ساختارمند به جای حذف ساده.

گام بعدی شما

بررسی مقیاس‌پذیری NSRU در مدل‌های تریلیون-پارامتری برای شناسایی گلوگاه‌های محاسباتی.
تحلیل هزینه استنتاج ناشی از تخمین زیرفضاهای حفظ در محیط‌های عملیاتی.
آزمایش متد NSRU بر روی داده‌های فارسی برای سنجش نرخ فراموشی در زبان‌های با منابع کمتر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران