GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

چرا Muon جایگزین AdamW در آموزش مدل‌های ترلیونی می‌شود؟

·۱۳ خرداد ۱۴۰۵۶ دقیقه مطالعه
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

ادغام رسمی Muon در اکوسیستم DeepSpeed؛ این ابزار از حالت یک تکنیک پژوهشی خاص به یک استانداردی تبدیل شد که اکنون در دسترس تمامی توسعه‌دهندگان است.

اگر با بودجه‌ی محدودی از GPU برای آموزش مدل‌های زبانی استفاده می‌کنید، ۹ درصد کاهش حافظه تفاوت بین اجرای مدل روی یک دستگاه یا اتکای کند به CPU است. در ۳ ژوئن ۲۰۲۶، DeepSpeed رسماً از بهینه‌ساز Muon (Muon Optimizer) — شبیه به یک GPS هوشمند که مدل را با کمترین تلاش به سمت پاسخ درست هدایت می‌کند — پشتیبانی کرد.

این به‌روزرسانی در زمانی می‌رسد که آزمایشگاه‌های بزرگ برای رسیدن به زمان‌های کوتاه‌تر، در حال جایگزینی بهینه‌سازهای سنتی هستند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های سخت‌افزاری مدل‌های بازمتن اشاره کردیم، گلوگاه اصلی همیشه حافظه است. Muon در حال حاضر در مدل‌های عظیمی مثل Kimi-K2 (با ۱ تریلیون پارامتر) از شرکت Moonshot AI و DeepSeek-V4 به کار گرفته شده است.

به نقل از مستندات منتشرشده، مشکل AdamW (استاندارد قدیمی صنعت) این است که برای هر پارامتر به دو بافر مومنتوم نیاز دارد و حافظه را می‌بلعد. DeepSpeed این مشکل را با ادغام Muon در خط‌لوله‌های ZeRO Stage 1 و 2 حل کرده است. این بهینه‌ساز از تکرارهای Newton-Schulz برای متعامدسازی ماتریس مومنتوم استفاده می‌کند تا مسیرهای به‌روزرسانی حیاتی را تقویت کند.

طبق گزارش‌های فنی، نتایج بنچمارک‌ها خیره‌کننده است:

  • بهره‌وری نمونه: در بنچمارک‌های NanoGPT، سرعت آموزش ۳۵٪ نسبت به AdamW افزایش یافت.
  • صرفه‌جویی در حافظه: حافظه‌ی حالت بهینه‌ساز برای ترانسفورمرهای معمولی حدود ۴۵٪ کاهش یافت.
  • تأثیر نهایی: بر اساس داده‌های pytorch.org، در تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی تخصص پوست می‌دهیم تا در یک حوزه دقیق شود — مدل Qwen2.5-3B روی GPUهای A100، اوج مصرف حافظه از ۳۴.۵ گیگابایت به ۳۱.۴ گیگابایت رسید.

این تغییر نشان‌دهنده‌ی گذار به «بهینه‌سازی ترکیبی» است. توسعه‌دهندگان اکنون می‌توانند از Muon برای وزن‌های مخفی دوبعدی و از AdamW برای لایه‌های نرمال‌ساز استفاده کنند. این یعنی پایداری مدل حفظ می‌شود اما سرعت به‌شدت بالا می‌رود. برای متخصصان، این به‌روزرسانی پیش‌فرض قدیمی مبنی بر اینکه AdamW تنها انتخاب viable برای پیش‌آموزش است را می‌شکند.

گام بعدی شما

  • اگر از DeepSpeed استفاده می‌کنید، دموی finetune را در گیت‌هاب تست کنید.
  • منتظر انتشار MuonClip برای بهینه‌سازی بیشتر مدل‌های فوق‌عظیم باشید.
  • استراتژی ترکیب بهینه‌سازها را در خط‌لوله‌ی آموزش خود پیاده کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این تحول به دلیل تکیه بر تجربه آزمایشگاه‌های پیشرو، دسترسی به آموزش مدل‌های بزرگ را دموکراتیک‌تر می‌کند. کاهش چشمگیر حافظه‌ی مورد نیاز، یعنی نیاز به سخت‌افزارهای کمتر برای رسیدن به نتایج مشابه.

تأثیر برای ایران

برای پژوهشگران ایرانی که با محدودیت سخت‌افزاری مواجه‌اند، کاهش ۹ درصدی حافظه و افزایش ۳۵ درصدی سرعت آموزش می‌تواند تفاوت بین ممکن یا غیرممکن بودن آموزش یک مدل را رقم بزند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما این است که دوران «یک بهینه‌ساز برای همه» به پایان رسیده است. پذیرش معماری ترکیبی (Hybrid Optimization) نشان می‌دهد که برای رسیدن به مقیاس ترلیونی، باید از ابزارهای مختلف برای بخش‌های مختلف مدل استفاده کرد تا تعادل میان سرعت و پایداری برقرار شود.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه