چرا ادغام مدل‌های آموزش‌دیده با بهینه‌سازهای مختلف ممکن است شکست بخورد؟

تصور کنید دو مدل با دقت یکسان، در واقع در دو دنیای کاملاً متفاوت از نظر ریاضی زندگی می‌کنند. اگر فکر می‌کنید بهینه‌ساز تنها ابزاری برای رسیدن سریع‌تر به جواب است، باید بدانید که این ابزار در واقع «شکل» هوش مدل شما را تغییر می‌دهد.

اتصال مودها (Mode Connectivity) مدت‌ها به عنوان ویژگی معماری مدل‌ها شناخته می‌شد. اما با چرخش صنعت به سمت بهینه‌سازهای پیچیده‌تر برای تسریع آموزش مدل‌های زبانی بزرگ (LLM)، درک اثرات پنهان این ابزارها حیاتی شده است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های زبانی اشاره کردیم، هر تغییر کوچک در فرآیند آموزش می‌تواند نتایج متفاوتی در پایداری مدل ایجاد کند.

در ۱۱ مه ۲۰۲۶، پژوهشی در arxiv.org نشان داد که بهینه‌سازهایی مانند AdamW و Muon صرفاً راهکارها را پیدا نمی‌کنند، بلکه نواحی مجزایی از اتصال مودها را القا می‌کنند. بر اساس مستندات این تحقیق، تحلیل روی شبکه‌های ReLU دو لایه و پیش‌آموزش GPT-2 نتایج زیر را داشت:

راهکارهای حاصل از یک بهینه‌ساز واحد (مانند AdamW یا خانواده‌ی Lion-K) در شبکه‌های با عرض کافی، مجموعه‌ای متصل تشکیل می‌دهند.
در مدل‌های کوچک‌تر، AdamW و Muon به مؤلفه‌های جداگانه‌ای از زیان صفر هم‌گرا می‌شوند که توسط یک مانع زیان (Loss Barrier) اثبات‌شده از هم جدا شده‌اند.
در پیش‌آموزش GPT-2، مسیرهای بین مدل‌های هم‌بهینه‌ساز، طیف وزن‌ها را حفظ می‌کنند، اما مسیرهای بین بهینه‌سازهای مختلف، یک گذار نرم را طی می‌کنند.

این یافته، این فرض رایج را که هر دو مینیمم سراسری (Global Minima) اساساً جایگزین یکدیگر هستند، تغییر می‌دهد. برای متخصصان فنی، این بدان معناست که سوپ کردن مدل‌ها (Model Souping) یا ادغام وزن‌های مدل‌هایی که با بهینه‌سازهای متفاوت آموزش دیده‌اند، بنیادی‌تر از ادغام مدل‌های هم‌بهینه‌ساز دشوار است و احتمالاً به نتایجی متفاوت منجر می‌شود. در واقع، مسیر رسیدن به راهکار به اندازه خودِ راهکار اهمیت دارد.

گام بعدی شما

بررسی رفتار خانواده‌ی Lion-K در پروژه‌های ادغام مدل.
آزمایش اثر بهینه‌سازهای مختلف بر پایداری مدل‌های کوچک در مقابل مدل‌های بزرگ.
مطالعه‌ی کامل تحلیل‌های ریاضی در نسخه‌ی اصلی arXiv.

اما تأثیر این ساختارها بر سرعت استنتاج هنوز ناشناخته است — به بررسی ما درباره‌ی سخت‌افزارهای استنتاجی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهکارهای حاصل از یک بهینه‌ساز واحد (مانند AdamW یا خانواده‌ی Lion-K) در شبکه‌های با عرض کافی، مجموعه‌ای متصل تشکیل می‌دهند.
در مدل‌های کوچک‌تر، AdamW و Muon به مؤلفه‌های جداگانه‌ای از زیان صفر هم‌گرا می‌شوند که توسط یک مانع زیان (Loss Barrier) اثبات‌شده از هم جدا شده‌اند.
در پیش‌آموزش GPT-2، مسیرهای بین مدل‌های هم‌بهینه‌ساز، طیف وزن‌ها را حفظ می‌کنند، اما مسیرهای بین بهینه‌سازهای مختلف، یک گذار نرم را طی می‌کنند.

گام بعدی شما

بررسی رفتار خانواده‌ی Lion-K در پروژه‌های ادغام مدل.
آزمایش اثر بهینه‌سازهای مختلف بر پایداری مدل‌های کوچک در مقابل مدل‌های بزرگ.
مطالعه‌ی کامل تحلیل‌های ریاضی در نسخه‌ی اصلی arXiv.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام مدل‌های آموزش‌دیده با بهینه‌سازهای مختلف ممکن است شکست بخورد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام مدل‌های آموزش‌دیده با بهینه‌سازهای مختلف ممکن است شکست بخورد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام مدل‌های آموزش‌دیده با بهینه‌سازهای مختلف ممکن است شکست بخورد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ادغام مدل‌های آموزش‌دیده با بهینه‌سازهای مختلف ممکن است شکست بخورد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران