چرا Muon جایگزین AdamW در آموزش مدل‌های ترلیونی می‌شود؟

اگر با بودجه‌ی محدودی از GPU برای آموزش مدل‌های زبانی استفاده می‌کنید، ۹ درصد کاهش حافظه تفاوت بین اجرای مدل روی یک دستگاه یا اتکای کند به CPU است. در ۳ ژوئن ۲۰۲۶، DeepSpeed رسماً از بهینه‌ساز Muon (Muon Optimizer) — شبیه به یک GPS هوشمند که مدل را با کمترین تلاش به سمت پاسخ درست هدایت می‌کند — پشتیبانی کرد.

این به‌روزرسانی در زمانی می‌رسد که آزمایشگاه‌های بزرگ برای رسیدن به زمان‌های کوتاه‌تر، در حال جایگزینی بهینه‌سازهای سنتی هستند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های سخت‌افزاری مدل‌های بازمتن اشاره کردیم، گلوگاه اصلی همیشه حافظه است. Muon در حال حاضر در مدل‌های عظیمی مثل Kimi-K2 (با ۱ تریلیون پارامتر) از شرکت Moonshot AI و DeepSeek-V4 به کار گرفته شده است.

به نقل از مستندات منتشرشده، مشکل AdamW (استاندارد قدیمی صنعت) این است که برای هر پارامتر به دو بافر مومنتوم نیاز دارد و حافظه را می‌بلعد. DeepSpeed این مشکل را با ادغام Muon در خط‌لوله‌های ZeRO Stage 1 و 2 حل کرده است. این بهینه‌ساز از تکرارهای Newton-Schulz برای متعامدسازی ماتریس مومنتوم استفاده می‌کند تا مسیرهای به‌روزرسانی حیاتی را تقویت کند.

طبق گزارش‌های فنی، نتایج بنچمارک‌ها خیره‌کننده است:

بهره‌وری نمونه: در بنچمارک‌های NanoGPT، سرعت آموزش ۳۵٪ نسبت به AdamW افزایش یافت.
صرفه‌جویی در حافظه: حافظه‌ی حالت بهینه‌ساز برای ترانسفورمرهای معمولی حدود ۴۵٪ کاهش یافت.
تأثیر نهایی: بر اساس داده‌های pytorch.org، در تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی تخصص پوست می‌دهیم تا در یک حوزه دقیق شود — مدل Qwen2.5-3B روی GPUهای A100، اوج مصرف حافظه از ۳۴.۵ گیگابایت به ۳۱.۴ گیگابایت رسید.

این تغییر نشان‌دهنده‌ی گذار به «بهینه‌سازی ترکیبی» است. توسعه‌دهندگان اکنون می‌توانند از Muon برای وزن‌های مخفی دوبعدی و از AdamW برای لایه‌های نرمال‌ساز استفاده کنند. این یعنی پایداری مدل حفظ می‌شود اما سرعت به‌شدت بالا می‌رود. برای متخصصان، این به‌روزرسانی پیش‌فرض قدیمی مبنی بر اینکه AdamW تنها انتخاب viable برای پیش‌آموزش است را می‌شکند.

گام بعدی شما

اگر از DeepSpeed استفاده می‌کنید، دموی finetune را در گیت‌هاب تست کنید.
منتظر انتشار MuonClip برای بهینه‌سازی بیشتر مدل‌های فوق‌عظیم باشید.
استراتژی ترکیب بهینه‌سازها را در خط‌لوله‌ی آموزش خود پیاده کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق گزارش‌های فنی، نتایج بنچمارک‌ها خیره‌کننده است:

بهره‌وری نمونه: در بنچمارک‌های NanoGPT، سرعت آموزش ۳۵٪ نسبت به AdamW افزایش یافت.
صرفه‌جویی در حافظه: حافظه‌ی حالت بهینه‌ساز برای ترانسفورمرهای معمولی حدود ۴۵٪ کاهش یافت.
تأثیر نهایی: بر اساس داده‌های pytorch.org، در تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی تخصص پوست می‌دهیم تا در یک حوزه دقیق شود — مدل Qwen2.5-3B روی GPUهای A100، اوج مصرف حافظه از ۳۴.۵ گیگابایت به ۳۱.۴ گیگابایت رسید.

گام بعدی شما

اگر از DeepSpeed استفاده می‌کنید، دموی finetune را در گیت‌هاب تست کنید.
منتظر انتشار MuonClip برای بهینه‌سازی بیشتر مدل‌های فوق‌عظیم باشید.
استراتژی ترکیب بهینه‌سازها را در خط‌لوله‌ی آموزش خود پیاده کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Muon جایگزین AdamW در آموزش مدل‌های ترلیونی می‌شود؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Muon جایگزین AdamW در آموزش مدل‌های ترلیونی می‌شود؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Muon جایگزین AdamW در آموزش مدل‌های ترلیونی می‌شود؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا Muon جایگزین AdamW در آموزش مدل‌های ترلیونی می‌شود؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران