اگر هنوز برای آموزش مدلهای مقیاسبزرگ به AdamW تکیه میکنید، احتمالاً نیمی از بودجه محاسباتی خود را دور میریزید. تصور کنید بتوانید همان کیفیت خروجی را با نصف هزینهی پردازشی به دست آورید؛ این دقیقاً همان اتفاقی است که اکنون رخ داده است.
MoonshotAI از مدل Moonlight پردهبرداری کرد؛ یک مدل ترکیب خبرگان (Mixture-of-Expert یا MoE) با ۱۶ میلیارد پارامتر که تنها ۳ میلیارد پارامتر فعال دارد. به نقل از مقالهای که در فوریه ۲۰۲۵ منتشر شد، این مدل با استفاده از نسخهی مقیاسیافتهی بهینهساز (Optimizer) جدیدی به نام Muon روی ۵.۷ تریلیون توکن آموزش دیده است.
طبق گزارشهای فنی، تیم توسعه دریافتند که با پیادهسازی کاهش وزن (Weight Decay) و بهروزرسانیهای سازگار با جذر میانگین مربعات (RMS)، بهینهساز Muon میتواند بدون نیاز به تنظیمات پیچیدهی هایپرپارامترها، در مدلهای عظیم مقیاسپذیر شود.
نتایج حاصل از قوانین مقیاسپذیری (Scaling Laws) تکاندهنده است:
- بهرهوری نمونه: Muon تقریباً ۲ برابر کارآمدتر از Adam است.
- کاهش هزینه: مدل Moonlight به عملکردی مشابه نسخههای آموزشدیده با AdamW رسید، اما تنها به ۵۲ درصد قدرت محاسباتی (Compute/FLOPs) نیاز داشت.
همانطور که در تحلیلهای قبلی ما دربارهی بهینهسازی مدلهای زبانی بزرگ اشاره کردیم، دستیابی به این سطح از بهرهوری معمولاً مستلزم قربانی کردن دقت است، اما Moonlight این قاعده را شکست.
در بنچمارکهای رودررو، این مدل از رقبای هماندازه خود پیشی گرفت:
- MMLU انگلیسی: امتیاز ۷۰.۰ (در مقابل ۵۴.۷۵ برای Llama 3.2-3B).
- کدنویسی (HumanEval): امتیاز ۴۸.۱ (در مقابل ۲۸.۰ برای Llama 3.2-3B).
- ریاضیات (MATH): امتیاز ۴۵.۳ (بسیار بالاتر از ۱۷.۱ در DeepSeek-v2-Lite).
بر اساس مستندات، Moonlight از همان معماری DeepSeek-V3 استفاده میکند که استقرار آن را روی موتورهای استنتاج محبوب مانند VLLM و SGLang بسیار ساده میکند. MoonshotAI برای حمایت از جامعهی وزنهای باز (Open Weights)، پیادهسازی Muon و نقاط بازرسی (Checkpoints) مدل را بهصورت متنباز منتشر کرده است.
اما تأثیر این بهینهساز بر مدلهای کوچکتر حتی جذابتر است — به بررسی ما دربارهی مدلهای زبانی کوچک (SLM) مراجعه کنید.
گام بعدی شما
- بررسی پیادهسازی Muon در گیتهاب برای جایگزینی با AdamW در پروژههای شخصی.
- تست مدل Moonlight روی موتور VLLM برای مقایسه سرعت استنتاج.
- مطالعهی بخش RMS updates در مقاله فوریه ۲۰۲۵ برای درک عمیقتر ریاضیات بهینهسازی.




گفتگو