اگر قصد دارید چندین مدل تخصصی را در یک مدل واحد ادغام کنید، احتمالاً با یک بحران پنهان روبرو هستید: پاکشدن اطلاعات (Information Erasure). شما باید بدانید که در روشهای فعلی، وزنهای وظایف غالب، دانش وظایف ضعیفتر را بهطور کامل حذف میکنند.
به نقل از مقالهای که در ۱۶ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، ادغام مدلها (Model Merging) استراتژی اصلی برای ساخت مدلهای چندوظیفهای بدون نیاز به بازآموزیهای گرانقیمت است. با این حال، همانطور که در تحلیلهای پیشین ما دربارهی چالشهای تخصص در مدلهای زبانی اشاره کردیم، این فرآیند اغلب منجر به تداخل وظایف میشود و باعث میشود مدل در برخی حوزههای خاص، توانمندیهای خود را از دست بدهد.
چارچوب METIS (Mitigating Erasure from Task Interference for Stable many-shot merging) برای مقابله با این مشکل، دو سازوکار کلیدی را معرفی میکند:
- وزندهی بر اساس شکاف ضرر (Task-wise loss-gap weighting): این مکانیسم تضمین میکند که فرآیند ادغام، بازیابی وظایفی که بدترین عملکرد را دارند در اولویت قرار دهد.
- ماسکگذاری مبتنی بر اجماع (Consensus-based masking): این لایه از حذف وزنهای حیاتی در طول تکرارهای ادغام محافظت میکند.
بر اساس مستندات این پژوهش، این پروتکل تکرارشونده در مقایسه با ادغامهای تکمرحلهای (One-shot merge)، دقت مدل را در پایینترین سطوح امتیازی بهطور معناداری افزایش میدهد.
این رویکرد، پیشفرض فنی ادغام مدلها را از یک «ترکیب استاتیک» به یک «بهینهسازی پویا» تغییر میدهد. در واقع METIS با پذیرش این واقعیت که همه وظایف بهطور یکسان ادغام نمیشوند، مسیری به سوی ترکیب جراحیشدهی هوش را میگشاید. این امر مانع از آن میشود که قابلیتهای نیچ (Niche) و تخصصی، قربانی عملکرد کلی مدل شوند.
گام بعدی شما
- دنبال کردن صفحه رسمی پروژه برای دسترسی به کد منبع (Codebase).
- آزمایش متد توازن شکاف ضرر بر روی ادغامهای تخصصی مبتنی بر Llama.
- بررسی میزان کاهش نرخ فراموشی در مدلهای چندوظیفهای پس از بهکارگیری ماسکگذاری اجماع.
اما این بهینهسازی تنها بخشی از معادله است؛ اثر این روش بر هزینهی استنتاج مدلهای ترکیبی را در یادداشت بعدی بررسی خواهیم کرد.




گفتگو