اگر مسئولیت مدیریت مدلهای متراکم را کنار بگذارید و به سراغ معماریهای پراکنده بروید، با یک چالش دشوار روبرو میشوید: چگونه دادههای حساس را بدون تخریب کل سیستم حذف کنیم؟ باید بدانید که مدلهای ترکیبی متخصصان (Mixture-of-Experts یا MoE) در فرآیند فراموشی دادهها دچار یک نقص پنهان هستند که میتواند منجر به فروپاشی کامل کارایی مدل شود.
این مشکل از چیزی به نام «ناهماهنگی مسیریابی در فراموشی و حفظ» (forget-retain routing mismatch) ناشی میشود. در این معماریها، یک مسیریاب (Router) توکنها را به زیرمجموعههایی از متخصصان میفرستد. طبق گزارشهای فنی، در بسیاری از موارد، تنها بخش کوچکی از متخصصان دادههای «مورد حذف» را مدیریت میکنند، در حالی که دادههای «مورد حفظ» توسط بخشهای دیگری پردازش میشوند. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای بنیادی و بهینهسازی استنتاج اشاره کردیم، هرگونه عدم توازن در فعالسازی لایهها میتواند پایداری مدل را به خطر بیندازد.
به نقل از مقالهای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، روش TRACE (کالیبراسیون هدفمند متخصصان آگاه به مسیریابی) برای حل این بحران معرفی شده است. این سازوکار از دو مرحله اصلی تشکیل شده است:
- شناسایی متخصصان حساس به فراموشی با استفاده از آمارهای فعالسازی آفلاین.
- کالیبره کردن تنظیمات حفظ دادهها از طریق بازتعریف وزنهای تلفات (losses) در سطح توکن؛ به گونهای که فرکانس فعالسازی هر متخصص در بخش «حفظ»، با معادل آن در بخش «فراموشی» همراستا شود.
بر اساس بررسیهای انجامشده روی مجموعهدادههای WMDP و MUSE-BOOKS در چندین مدل زبانی بزرگ (LLM) با معماری MoE، متد TRACE توانست بهبود نسبی ۹ درصدی در کارایی مدل (Utility) ایجاد کند، بدون آنکه کیفیت حذف دادهها نسبت به روشهای پایه کاهش یابد.
این دستاورد، این فرض قدیمی را که تکنیکهای حذف داده در مدلهای متراکم (Dense) بهسادگی به مدلهای پراکنه (Sparse) قابل انتقال هستند، به چالش میکشد. تحلیل ما نشان میدهد که در مدلهای MoE، «محل» ذخیرهسازی اطلاعات، تعیینکنندهی «چگونگی» حذف آنهاست؛ بنابراین حذف دادهها باید به جای یک فرآیند کلی، به یک فرآیند «آگاه به معماری» تبدیل شود تا از دست رفتن فاجعهبار کارایی مدل جلوگیری شود.
گام بعدی شما
- پژوهشگران باید ارزیابی کنند که آیا TRACE در معماریهای مسیریابی پویا (Dynamic Routing) نیز اثرگذار است یا خیر.
- تیمهای پیادهسازی لایههای ایمنی در مدلهای MoE باید منتظر انتشار ابزارهای مبتنی بر TRACE برای پاکسازی بهینه دادهها باشند.
- بررسی اثر این متد بر کاهش نرخ توهم در مدلهای تخصصی.
ama داستان سختافزاری این تحولات حتی پیچیدهتر است؛ برای درک رابطه میان توزیع حافظه و سرعت استنتاج، به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو