تصور کنید دو مدل با دقت یکسان، در واقع در دو دنیای کاملاً متفاوت از نظر ریاضی زندگی میکنند. اگر فکر میکنید بهینهساز تنها ابزاری برای رسیدن سریعتر به جواب است، باید بدانید که این ابزار در واقع «شکل» هوش مدل شما را تغییر میدهد.
اتصال مودها (Mode Connectivity) مدتها به عنوان ویژگی معماری مدلها شناخته میشد. اما با چرخش صنعت به سمت بهینهسازهای پیچیدهتر برای تسریع آموزش مدلهای زبانی بزرگ (LLM)، درک اثرات پنهان این ابزارها حیاتی شده است. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای زبانی اشاره کردیم، هر تغییر کوچک در فرآیند آموزش میتواند نتایج متفاوتی در پایداری مدل ایجاد کند.
در ۱۱ مه ۲۰۲۶، پژوهشی در arxiv.org نشان داد که بهینهسازهایی مانند AdamW و Muon صرفاً راهکارها را پیدا نمیکنند، بلکه نواحی مجزایی از اتصال مودها را القا میکنند. بر اساس مستندات این تحقیق، تحلیل روی شبکههای ReLU دو لایه و پیشآموزش GPT-2 نتایج زیر را داشت:
- راهکارهای حاصل از یک بهینهساز واحد (مانند AdamW یا خانوادهی Lion-K) در شبکههای با عرض کافی، مجموعهای متصل تشکیل میدهند.
- در مدلهای کوچکتر، AdamW و Muon به مؤلفههای جداگانهای از زیان صفر همگرا میشوند که توسط یک مانع زیان (Loss Barrier) اثباتشده از هم جدا شدهاند.
- در پیشآموزش GPT-2، مسیرهای بین مدلهای همبهینهساز، طیف وزنها را حفظ میکنند، اما مسیرهای بین بهینهسازهای مختلف، یک گذار نرم را طی میکنند.
این یافته، این فرض رایج را که هر دو مینیمم سراسری (Global Minima) اساساً جایگزین یکدیگر هستند، تغییر میدهد. برای متخصصان فنی، این بدان معناست که سوپ کردن مدلها (Model Souping) یا ادغام وزنهای مدلهایی که با بهینهسازهای متفاوت آموزش دیدهاند، بنیادیتر از ادغام مدلهای همبهینهساز دشوار است و احتمالاً به نتایجی متفاوت منجر میشود. در واقع، مسیر رسیدن به راهکار به اندازه خودِ راهکار اهمیت دارد.
گام بعدی شما
- بررسی رفتار خانوادهی Lion-K در پروژههای ادغام مدل.
- آزمایش اثر بهینهسازهای مختلف بر پایداری مدلهای کوچک در مقابل مدلهای بزرگ.
- مطالعهی کامل تحلیلهای ریاضی در نسخهی اصلی arXiv.
اما تأثیر این ساختارها بر سرعت استنتاج هنوز ناشناخته است — به بررسی ما دربارهی سختافزارهای استنتاجی مراجعه کنید.




گفتگو