Moonlight: وقتی نصف کردن قدرت محاسباتی به نتایج خیره‌کننده منجر می‌شود

اگر هنوز برای آموزش مدل‌های مقیاس‌بزرگ به AdamW تکیه می‌کنید، احتمالاً نیمی از بودجه محاسباتی خود را دور می‌ریزید. تصور کنید بتوانید همان کیفیت خروجی را با نصف هزینه‌ی پردازشی به دست آورید؛ این دقیقاً همان اتفاقی است که اکنون رخ داده است.

MoonshotAI از مدل Moonlight پرده‌برداری کرد؛ یک مدل ترکیب خبرگان (Mixture-of-Expert یا MoE) با ۱۶ میلیارد پارامتر که تنها ۳ میلیارد پارامتر فعال دارد. به نقل از مقاله‌ای که در فوریه ۲۰۲۵ منتشر شد، این مدل با استفاده از نسخه‌ی مقیاس‌یافته‌ی بهینه‌ساز (Optimizer) جدیدی به نام Muon روی ۵.۷ تریلیون توکن آموزش دیده است.

طبق گزارش‌های فنی، تیم توسعه دریافتند که با پیاده‌سازی کاهش وزن (Weight Decay) و به‌روزرسانی‌های سازگار با جذر میانگین مربعات (RMS)، بهینه‌ساز Muon می‌تواند بدون نیاز به تنظیمات پیچیده‌ی هایپرپارامترها، در مدل‌های عظیم مقیاس‌پذیر شود.

نتایج حاصل از قوانین مقیاس‌پذیری (Scaling Laws) تکان‌دهنده است:

بهره‌وری نمونه: Muon تقریباً ۲ برابر کارآمدتر از Adam است.
کاهش هزینه: مدل Moonlight به عملکردی مشابه نسخه‌های آموزش‌دیده با AdamW رسید، اما تنها به ۵۲ درصد قدرت محاسباتی (Compute/FLOPs) نیاز داشت.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی مدل‌های زبانی بزرگ اشاره کردیم، دستیابی به این سطح از بهره‌وری معمولاً مستلزم قربانی کردن دقت است، اما Moonlight این قاعده را شکست.

در بنچمارک‌های رودررو، این مدل از رقبای هم‌اندازه خود پیشی گرفت:

MMLU انگلیسی: امتیاز ۷۰.۰ (در مقابل ۵۴.۷۵ برای Llama 3.2-3B).
کدنویسی (HumanEval): امتیاز ۴۸.۱ (در مقابل ۲۸.۰ برای Llama 3.2-3B).
ریاضیات (MATH): امتیاز ۴۵.۳ (بسیار بالاتر از ۱۷.۱ در DeepSeek-v2-Lite).

بر اساس مستندات، Moonlight از همان معماری DeepSeek-V3 استفاده می‌کند که استقرار آن را روی موتورهای استنتاج محبوب مانند VLLM و SGLang بسیار ساده می‌کند. MoonshotAI برای حمایت از جامعه‌ی وزن‌های باز (Open Weights)، پیاده‌سازی Muon و نقاط بازرسی (Checkpoints) مدل را به‌صورت متن‌باز منتشر کرده است.

اما تأثیر این بهینه‌ساز بر مدل‌های کوچک‌تر حتی جذاب‌تر است — به بررسی ما درباره‌ی مدل‌های زبانی کوچک (SLM) مراجعه کنید.

گام بعدی شما

بررسی پیاده‌سازی Muon در گیت‌هاب برای جایگزینی با AdamW در پروژه‌های شخصی.
تست مدل Moonlight روی موتور VLLM برای مقایسه سرعت استنتاج.
مطالعه‌ی بخش RMS updates در مقاله فوریه ۲۰۲۵ برای درک عمیق‌تر ریاضیات بهینه‌سازی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نتایج حاصل از قوانین مقیاس‌پذیری (Scaling Laws) تکان‌دهنده است:

بهره‌وری نمونه: Muon تقریباً ۲ برابر کارآمدتر از Adam است.
کاهش هزینه: مدل Moonlight به عملکردی مشابه نسخه‌های آموزش‌دیده با AdamW رسید، اما تنها به ۵۲ درصد قدرت محاسباتی (Compute/FLOPs) نیاز داشت.

در بنچمارک‌های رودررو، این مدل از رقبای هم‌اندازه خود پیشی گرفت:

MMLU انگلیسی: امتیاز ۷۰.۰ (در مقابل ۵۴.۷۵ برای Llama 3.2-3B).
کدنویسی (HumanEval): امتیاز ۴۸.۱ (در مقابل ۲۸.۰ برای Llama 3.2-3B).
ریاضیات (MATH): امتیاز ۴۵.۳ (بسیار بالاتر از ۱۷.۱ در DeepSeek-v2-Lite).

گام بعدی شما

بررسی پیاده‌سازی Muon در گیت‌هاب برای جایگزینی با AdamW در پروژه‌های شخصی.
تست مدل Moonlight روی موتور VLLM برای مقایسه سرعت استنتاج.
مطالعه‌ی بخش RMS updates در مقاله فوریه ۲۰۲۵ برای درک عمیق‌تر ریاضیات بهینه‌سازی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Moonlight: وقتی نصف کردن قدرت محاسباتی به نتایج خیره‌کننده منجر می‌شود

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Moonlight: وقتی نصف کردن قدرت محاسباتی به نتایج خیره‌کننده منجر می‌شود

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Moonlight: وقتی نصف کردن قدرت محاسباتی به نتایج خیره‌کننده منجر می‌شود

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Moonlight: وقتی نصف کردن قدرت محاسباتی به نتایج خیره‌کننده منجر می‌شود

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران