اگر با بودجهی محدودی از GPU برای آموزش مدلهای زبانی استفاده میکنید، ۹ درصد کاهش حافظه تفاوت بین اجرای مدل روی یک دستگاه یا اتکای کند به CPU است. در ۳ ژوئن ۲۰۲۶، DeepSpeed رسماً از بهینهساز Muon (Muon Optimizer) — شبیه به یک GPS هوشمند که مدل را با کمترین تلاش به سمت پاسخ درست هدایت میکند — پشتیبانی کرد.
این بهروزرسانی در زمانی میرسد که آزمایشگاههای بزرگ برای رسیدن به زمانهای کوتاهتر، در حال جایگزینی بهینهسازهای سنتی هستند. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای سختافزاری مدلهای بازمتن اشاره کردیم، گلوگاه اصلی همیشه حافظه است. Muon در حال حاضر در مدلهای عظیمی مثل Kimi-K2 (با ۱ تریلیون پارامتر) از شرکت Moonshot AI و DeepSeek-V4 به کار گرفته شده است.
به نقل از مستندات منتشرشده، مشکل AdamW (استاندارد قدیمی صنعت) این است که برای هر پارامتر به دو بافر مومنتوم نیاز دارد و حافظه را میبلعد. DeepSpeed این مشکل را با ادغام Muon در خطلولههای ZeRO Stage 1 و 2 حل کرده است. این بهینهساز از تکرارهای Newton-Schulz برای متعامدسازی ماتریس مومنتوم استفاده میکند تا مسیرهای بهروزرسانی حیاتی را تقویت کند.
طبق گزارشهای فنی، نتایج بنچمارکها خیرهکننده است:
- بهرهوری نمونه: در بنچمارکهای NanoGPT، سرعت آموزش ۳۵٪ نسبت به AdamW افزایش یافت.
- صرفهجویی در حافظه: حافظهی حالت بهینهساز برای ترانسفورمرهای معمولی حدود ۴۵٪ کاهش یافت.
- تأثیر نهایی: بر اساس دادههای pytorch.org، در تنظیم دقیق (Fine-tuning) — مثل وقتی به یک پزشک عمومی تخصص پوست میدهیم تا در یک حوزه دقیق شود — مدل Qwen2.5-3B روی GPUهای A100، اوج مصرف حافظه از ۳۴.۵ گیگابایت به ۳۱.۴ گیگابایت رسید.
این تغییر نشاندهندهی گذار به «بهینهسازی ترکیبی» است. توسعهدهندگان اکنون میتوانند از Muon برای وزنهای مخفی دوبعدی و از AdamW برای لایههای نرمالساز استفاده کنند. این یعنی پایداری مدل حفظ میشود اما سرعت بهشدت بالا میرود. برای متخصصان، این بهروزرسانی پیشفرض قدیمی مبنی بر اینکه AdamW تنها انتخاب viable برای پیشآموزش است را میشکند.
گام بعدی شما
- اگر از DeepSpeed استفاده میکنید، دموی finetune را در گیتهاب تست کنید.
- منتظر انتشار MuonClip برای بهینهسازی بیشتر مدلهای فوقعظیم باشید.
- استراتژی ترکیب بهینهسازها را در خطلولهی آموزش خود پیاده کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو