چرا ادغام تک‌مرحله‌ای مدل‌های زبانی در وظایف تخصصی شکست می‌خورد؟

اگر قصد دارید چندین مدل تخصصی را در یک مدل واحد ادغام کنید، احتمالاً با یک بحران پنهان روبرو هستید: پاک‌شدن اطلاعات (Information Erasure). شما باید بدانید که در روش‌های فعلی، وزن‌های وظایف غالب، دانش وظایف ضعیف‌تر را به‌طور کامل حذف می‌کنند.

به نقل از مقاله‌ای که در ۱۶ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، ادغام مدل‌ها (Model Merging) استراتژی اصلی برای ساخت مدل‌های چندوظیفه‌ای بدون نیاز به بازآموزی‌های گران‌قیمت است. با این حال، همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های تخصص در مدل‌های زبانی اشاره کردیم، این فرآیند اغلب منجر به تداخل وظایف می‌شود و باعث می‌شود مدل در برخی حوزه‌های خاص، توانمندی‌های خود را از دست بدهد.

چارچوب METIS (Mitigating Erasure from Task Interference for Stable many-shot merging) برای مقابله با این مشکل، دو سازوکار کلیدی را معرفی می‌کند:

وزن‌دهی بر اساس شکاف ضرر (Task-wise loss-gap weighting): این مکانیسم تضمین می‌کند که فرآیند ادغام، بازیابی وظایفی که بدترین عملکرد را دارند در اولویت قرار دهد.
ماسک‌گذاری مبتنی بر اجماع (Consensus-based masking): این لایه از حذف وزن‌های حیاتی در طول تکرارهای ادغام محافظت می‌کند.

بر اساس مستندات این پژوهش، این پروتکل تکرارشونده در مقایسه با ادغام‌های تک‌مرحله‌ای (One-shot merge)، دقت مدل را در پایین‌ترین سطوح امتیازی به‌طور معناداری افزایش می‌دهد.

این رویکرد، پیش‌فرض فنی ادغام مدل‌ها را از یک «ترکیب استاتیک» به یک «بهینه‌سازی پویا» تغییر می‌دهد. در واقع METIS با پذیرش این واقعیت که همه وظایف به‌طور یکسان ادغام نمی‌شوند، مسیری به سوی ترکیب جراحی‌شده‌ی هوش را می‌گشاید. این امر مانع از آن می‌شود که قابلیت‌های نیچ (Niche) و تخصصی، قربانی عملکرد کلی مدل شوند.

گام بعدی شما

دنبال کردن صفحه رسمی پروژه برای دسترسی به کد منبع (Codebase).
آزمایش متد توازن شکاف ضرر بر روی ادغام‌های تخصصی مبتنی بر Llama.
بررسی میزان کاهش نرخ فراموشی در مدل‌های چندوظیفه‌ای پس از به‌کارگیری ماسک‌گذاری اجماع.

اما این بهینه‌سازی تنها بخشی از معادله است؛ اثر این روش بر هزینه‌ی استنتاج مدل‌های ترکیبی را در یادداشت بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

وزن‌دهی بر اساس شکاف ضرر (Task-wise loss-gap weighting): این مکانیسم تضمین می‌کند که فرآیند ادغام، بازیابی وظایفی که بدترین عملکرد را دارند در اولویت قرار دهد.
ماسک‌گذاری مبتنی بر اجماع (Consensus-based masking): این لایه از حذف وزن‌های حیاتی در طول تکرارهای ادغام محافظت می‌کند.

گام بعدی شما

دنبال کردن صفحه رسمی پروژه برای دسترسی به کد منبع (Codebase).
آزمایش متد توازن شکاف ضرر بر روی ادغام‌های تخصصی مبتنی بر Llama.
بررسی میزان کاهش نرخ فراموشی در مدل‌های چندوظیفه‌ای پس از به‌کارگیری ماسک‌گذاری اجماع.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام تک‌مرحله‌ای مدل‌های زبانی در وظایف تخصصی شکست می‌خورد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام تک‌مرحله‌ای مدل‌های زبانی در وظایف تخصصی شکست می‌خورد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام تک‌مرحله‌ای مدل‌های زبانی در وظایف تخصصی شکست می‌خورد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام تک‌مرحله‌ای مدل‌های زبانی در وظایف تخصصی شکست می‌خورد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران