اگر در حال مقیاسبندی مدلهای پیشرو هستید، احتمالاً میلیونها دلار بودجهی محاسباتی خود را در آتش ناکارآمدی میسوزانید. ناکارآمدی در موازیسازی استاندارد دیگر یک چالش فنی ساده نیست، بلکه یک بحران مالی است.
به نقل از مقالهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، چارچوب جدیدی به نام Piper معرفی شده است که برای بهینهسازی آموزش مدلهای مخلوط خبره (Mixture-of-Experts - MoE) در پلتفرمهای رایانش با کارایی بالا (High-Performance Computing - HPC) طراحی شده است. طبق اعلام این تیم پژوهشی، Piper با هدف رفع عدم تعادل شدید در حجم کاری و اشغال بیش از حد حافظه آمده است؛ مشکلاتی که همواره استقرار مدلهای MoE در مقیاس بزرگ را مختل میکردند.
برای رسیدن به این هدف، پژوهشگران یک مدل ریاضی برای کمیسازی نیازهای حافظه، محاسبات و ارتباطات توسعه دادند. آنها چهار عامل کلیدی را که باعث سقوط عملکرد میشدند شناسایی کردند:
- تأخیر بالای all-to-all ناشی از موازات خبرگان.
- همپوشانی ناکافی بین محاسبات و ارتباطات.
- بهرهوری پایین GPU به دلیل «GEMMهای لاغر» (skinny GEMMs) نامتعادل.
- فقدان استراتژیهای موازات ترکیبی که با ویژگیهای پلتفرم سازگار باشند.
همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، افزایش ابعاد مدل بدون بهینهسازی دقیق لایهی سختافزاری، منجر به بازدهی نزولی میشود. Piper با بهکارگیری موازات خط لولهای (Pipeline Parallelism) و زمانبندیهای بهینه، به بهرهوری عملیات flops مدل (Model Flops Utilization - MFU) ۲ تا ۳.۵ برابر بیشتر نسبت به چارچوبهای پیشرفتهای مانند X-MoE دست یافته است. علاوه بر این، پیادهسازی یک الگوریتم all-to-all جدید، پهنای باند را ۱.۲ تا ۹ برابر بیشتر از پیادهسازیهای استاندارد سازندگان سختافزار افزایش داده است.
معماریهای MoE برای دستیابی به عملکرد سطح پیشرو با هزینه کمتر ضروری هستند، اما پیچیدگی آنها مقیاسپذیری را دشوار میکند. چرخش Piper به سمت مدلسازی منابع «پلتفرم-آگاه»، نشان میدهد که جهش بعدی در کارایی هوش مصنوعی زاینده (Generative AI) از ادغام تنگاتنگ زمانبندیهای نرمافزاری و توپولوژی سختافزاری حاصل خواهد شد.
اما این بهینهسازیها تنها نیمی از داستان است؛ تأثیر این تغییرات بر هزینهی استنتاج (Inference) در مقیاس تجاری را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مقاله Piper در Arxiv برای درک مدل ریاضی توزیع منابع.
- سنجش میزان MFU در کلاسترهای MoE فعلی خود برای شناسایی اتلاف محاسبات.
- مقایسه پهنای باند all-to-all در زیرساختهای خود با استانداردهای ارائه شده در Piper.




گفتگو