سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

اگر مسئولیت مدیریت مدل‌های متراکم را کنار بگذارید و به سراغ معماری‌های پراکنده بروید، با یک چالش دشوار روبرو می‌شوید: چگونه داده‌های حساس را بدون تخریب کل سیستم حذف کنیم؟ باید بدانید که مدل‌های ترکیبی متخصصان (Mixture-of-Experts یا MoE) در فرآیند فراموشی داده‌ها دچار یک نقص پنهان هستند که می‌تواند منجر به فروپاشی کامل کارایی مدل شود.

این مشکل از چیزی به نام «ناهماهنگی مسیریابی در فراموشی و حفظ» (forget-retain routing mismatch) ناشی می‌شود. در این معماری‌ها، یک مسیریاب (Router) توکن‌ها را به زیرمجموعه‌هایی از متخصصان می‌فرستد. طبق گزارش‌های فنی، در بسیاری از موارد، تنها بخش کوچکی از متخصصان داده‌های «مورد حذف» را مدیریت می‌کنند، در حالی که داده‌های «مورد حفظ» توسط بخش‌های دیگری پردازش می‌شوند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های بنیادی و بهینه‌سازی استنتاج اشاره کردیم، هرگونه عدم توازن در فعال‌سازی لایه‌ها می‌تواند پایداری مدل را به خطر بیندازد.

به نقل از مقاله‌ای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، روش TRACE (کالیبراسیون هدفمند متخصصان آگاه به مسیریابی) برای حل این بحران معرفی شده است. این سازوکار از دو مرحله اصلی تشکیل شده است:

شناسایی متخصصان حساس به فراموشی با استفاده از آمارهای فعال‌سازی آفلاین.
کالیبره کردن تنظیمات حفظ داده‌ها از طریق بازتعریف وزن‌های تلفات (losses) در سطح توکن؛ به گونه‌ای که فرکانس فعال‌سازی هر متخصص در بخش «حفظ»، با معادل آن در بخش «فراموشی» هم‌راستا شود.

بر اساس بررسی‌های انجام‌شده روی مجموعه‌داده‌های WMDP و MUSE-BOOKS در چندین مدل زبانی بزرگ (LLM) با معماری MoE، متد TRACE توانست بهبود نسبی ۹ درصدی در کارایی مدل (Utility) ایجاد کند، بدون آنکه کیفیت حذف داده‌ها نسبت به روش‌های پایه کاهش یابد.

این دستاورد، این فرض قدیمی را که تکنیک‌های حذف داده در مدل‌های متراکم (Dense) به‌سادگی به مدل‌های پراکنه (Sparse) قابل انتقال هستند، به چالش می‌کشد. تحلیل ما نشان می‌دهد که در مدل‌های MoE، «محل» ذخیره‌سازی اطلاعات، تعیین‌کننده‌ی «چگونگی» حذف آن‌هاست؛ بنابراین حذف داده‌ها باید به جای یک فرآیند کلی، به یک فرآیند «آگاه به معماری» تبدیل شود تا از دست رفتن فاجعه‌بار کارایی مدل جلوگیری شود.

گام بعدی شما

پژوهشگران باید ارزیابی کنند که آیا TRACE در معماری‌های مسیریابی پویا (Dynamic Routing) نیز اثرگذار است یا خیر.
تیم‌های پیاده‌سازی لایه‌های ایمنی در مدل‌های MoE باید منتظر انتشار ابزارهای مبتنی بر TRACE برای پاکسازی بهینه داده‌ها باشند.
بررسی اثر این متد بر کاهش نرخ توهم در مدل‌های تخصصی.

ama داستان سخت‌افزاری این تحولات حتی پیچیده‌تر است؛ برای درک رابطه میان توزیع حافظه و سرعت استنتاج، به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

شناسایی متخصصان حساس به فراموشی با استفاده از آمارهای فعال‌سازی آفلاین.
کالیبره کردن تنظیمات حفظ داده‌ها از طریق بازتعریف وزن‌های تلفات (losses) در سطح توکن؛ به گونه‌ای که فرکانس فعال‌سازی هر متخصص در بخش «حفظ»، با معادل آن در بخش «فراموشی» هم‌راستا شود.

گام بعدی شما

پژوهشگران باید ارزیابی کنند که آیا TRACE در معماری‌های مسیریابی پویا (Dynamic Routing) نیز اثرگذار است یا خیر.
تیم‌های پیاده‌سازی لایه‌های ایمنی در مدل‌های MoE باید منتظر انتشار ابزارهای مبتنی بر TRACE برای پاکسازی بهینه داده‌ها باشند.
بررسی اثر این متد بر کاهش نرخ توهم در مدل‌های تخصصی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران