اگر امروز برای استقرار مدلهای زاینده در مقیاس عظیم بودجهبندی میکنید، تفاوت قیمت سختافزاری میان دو غول تراشه میتواند سودآوری شما را تغییر دهد. طبق گزارش ۳ ژوئیه ۲۰۲۶ از Wafer، پردازنده MI355X شرکت AMD تقریباً ۲.۷۵ برابر ارزانتر از NVIDIA B300 است، در حالی که مشخصات سختافزاری مشابهی ارائه میدهد.
با افزایش شدید تقاضا برای استنتاج (Inference) — که مثل لحظهٔ خودِ آشپزی است، نه دورهی آموزش آشپز — برای پشتیبانی از مدلهای پیشرو مانند Claude Fable، GLM5.2 و Minimax M3، عرضه پردازندههای Blackwell انویدیا نتوانسته با این سرعت پیش برود. این کمبود باعث افزایش قیمتهای انویدیا شده و هزینه تولید هر توکن را برای ارائهدهندگان بالا برده است. برای کسانی که در حال مقیاسبندی تولید هستند، فاصله میان برتری نرمافزاری انویدیا و مزیت قیمتی ایامدی در حال کم شدن است، چرا که عاملهای بهینهسازی در حال بهبود هستند.
شکاف نرمافزاری
همانطور که در تحلیلهای پیشین ما دربارهی اکوسیستم سختافزاری مدلهای بازمتن اشاره کردیم، همواره نرمافزار گلوگاه اصلی بوده است. به طور تاریخی، برتری نرمافزاری انویدیا و پشتیبانی از «روز صفر» (Day-0 support) اجازه میداد ارائهدهندگان سریعتر و با اصطکاک کمتر مدلها را سرویسدهی کنند. در مقابل، در پشتهی MI355X / ROCm، عملکرد سطح اول (State-of-the-art) بهندرت بهصورت پیشفرض و «از جعبه» (Out of the box) در دسترس است. ارائهدهندگان اغلب برای یافتن ایمیجهایی که حتی این مدلهای پیشرو را اجرا کنند دچار مشکل میشوند؛ این بدان معناست که ساخت و بهینهسازی میتواند هفتهها زمان مهندسی طلب کند. تا زمانی که بهینهسازی تمام شود، اغلب مدل جدیدتری منتشر شده است و AMD را در وضعیت تعقیب قرار میدهد.
برای اثبات اینکه این شکاف در حال بسته شدن است، Wafer مدل GLM5.2 را روی ظرفیت MI355X ارائهشده توسط TensorWave آزمایش کرد. آنها بر روی یک حجم کاری (Workload) مشخص متمرکز شدند که شامل ۲۰ هزار توکن ورودی، ۱ هزار توکن خروجی و نرخ ۶۰ درصد Cache Hit بود.

بر اساس مستندات این آزمایش، توان عملیاتی کل ۲۶۲۶ توکن بر ثانیه در هر گره (node) با نرخ ۲.۴ درخواست در ثانیه (RPS) به دست آمد. زمان تا نخستین توکن (TTFT) نیز کمتر یا مساوی ۵ ثانیه بود. اگرچه این عدد تنها ۸۰ درصد از عملکرد اندازهگیری شده روی یک B200 است (که به ۳۱۹۲ توکن بر ثانیه در ۳.۰ RPS رسید)، اما چون MI355X بیش از ۲ برابر ارزانتر است، در نبرد بهرهوری و نسبت عملکرد به قیمت پیروز میشود.
معیارهای عملکرد
دادههای زیر مقیاسپذیری MI355X را تحت حجم کاری تعریفشده نشان میدهد:
- ۰.۵ RPS: ۴۴۹ توکن/ثانیه در گره (TTFT p50/p95: ۰.۵۹ ثانیه / ۰.۶۰ ثانیه)
- ۱.۰ RPS: ۹۷۴ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۰ ثانیه / ۰.۸۱ ثانیه)
- ۱.۵ RPS: ۱۹۱۳ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۲ ثانیه / ۱.۰۳ ثانیه)
- ۲.۰ RPS: ۱۹۴۴ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۲ ثانیه / ۱.۰۵ ثانیه)
- ۲.۲۵ RPS: ۲۰۸۹ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۳ ثانیه / ۱.۲۳ ثانیه)
- ۲.۴ RPS (اشباع): ۲۶۲۶ توکن/ثانیه در گره (TTFT p50/p95: ۰.۸۱ ثانیه / ۲.۲۲ ثانیه)
فرآیند بهینهسازی
دستیابی به این ارقام مستلزم عبور از اصطکاکهای معمول پشتهی ROCm بود. تیم فنی از چندین چرخش تکینیکی خاص استفاده کرد:
اول، کوانتایزیشن (Quantization) — شبیه وقتی که کیفیت یک عکس را کمی پایین میآوریم تا حجمش برای ارسال سریعتر کم شود. آنها از ابزار AMD Quark برای تبدیل مدل پایه bf16 GLM-5.2 به فرمت MXFP4 استفاده کردند. این روش در مقایسه با کوانتایزیشن رسمی FP8 شرکت z-ai در چندین محک، بدون افت کیفیت (Lossless) ظاهر شد: در GSM8K (۰.۹۵۵ در برابر ۰.۹۶۵)، در GPQA-Diamond (۰.۹۰۲۶ در برابر ۰.۹۲۱۷) و در tau2 macro، جایی که MXFP4 حتی امتیاز را از ۰.۸۱۹ به ۰.۸۳۴ بهبود بخشید.
دوم، انتخاب چارچوب؛ تیم ابتدا vLLM را تست کرد (که فاقد مسیر عملی MXFP4 + GlmMoeDsa بود) و سپس ATOM را بررسی نمود (جایی که خروجی در متنهای طولانی دچار افت کیفیت شد). در نهایت، تیم از sglang استفاده کرد زیرا کمترین اصطکاک را برای پشتیبانی بومی داشت و هنگام استفاده از کوانتایزیشن، انسجام مدل را حفظ میکرد.
سوم، رفع باگهای نرمافزاری؛ آنها دو باگ بحرانی را در ایمیج ROCm مربوط به sglang برطرف کردند. نخست، یک عدم تطابق نامگذاری را حل کردند که در آن پیشوند MTP head به اشتباه به عنوان model.decoder.* ثبت شده بود، در حالی که باید از پیشوند model.layers.78.mlp.shared_experts.* مورد استفاده در Quark استفاده میشد. این اصلاح، کرش ناشی از عدم تطابق اندازه (Shape mismatch) را برطرف و رمزگشایی گمانهزنانه را فعال کرد. دوم، یک گارد #ifdef USE_ROCM به یک هسته (Kernel) متادیتای چند-مرحلهای ادغامشده اضافه کردند که به اشتباه برای اعماق پیشنویس (Draft depths) بزرگتر یا مساوی ۴، فایل cuda_runtime.h را فراخوانی میکرد.
این اصلاحات باعث فعال شدن رمزگشایی گمانهزنانه (Speculative Decoding) — مثل شطرنجبازی که چند حرکت جلوتر را میبیند تا سریعتر تصمیم بگیرد — شد که منجر به افزایشی نزدیک به ۳ برابر در توان عملیاتی تک-جریانی شد و در نهایت به ۲۱۳ توکن بر ثانیه برای ۱۰ هزار توکن ورودی و ۱.۵ هزار توکن خروجی رسید. این نتیجه با بهینهسازیهای پیکربندی شامل --kv-cache-dtype fp8_e4m3 و --enable-aiter-allreduce-fusion تقویت شد.
مقیاسبندی توان عملیاتی
تیم دریافت که حجم کاری عمدتاً محدود به مرحلهی پیشپُرکردن (Prefill) است. در حالی که پیکربندی Tensor Parallel 8 (TP8) برای رمزگشایی تک-جریانی بهترین بود و مدل GLM5.2-MXFP4 را با سرعت ۱۴۶۱ توکن/ثانیه در گره اجرا میکرد، اما تغییر به پیکربندی TP4×DP2 توان عملیاتی کل را به شدت بهبود بخشید و آن را در ۲.۰ RPS به ۱۹۴۴ توکن بر ثانیه رساند.
در نهایت، آنها شناسایی کردند که ایمیج sglang به دلیل نبود پیکربندیهای تنظیمشده برای a8w8/fp8 در aiter، از یک جایگزین کند (Fallback) به نام FlyDSL برای MoEهای fp4 استفاده میکرد. با تنظیم دستی انتخاب هستهی MoE برای اشکال خاص مدل GLM (ابعاد مدل ۶۱۴۴، میانبافte moe ۲۰۴۸، E=۲۵۶، topk=۸)، آنها به رقم نهایی ۲۶۲۶ توکن بر ثانیه در هر گره دست یافتند.
این تغییر نشان میدهد که «خندق CUDA» در حال تخریب است. برای خواننده، این بدان معناست که مانع اصلی برای مهاجرت از انویدیا دیگر قدرت خام سیلیکون نیست، بلکه زمان مهندسی صرف شده برای پشتیبانی نرمافزاری است. از آنجا که این مطالعه — برخلاف کارهای پیشین با Qwen3.5 397B — نیازی به نوشتن هستههای سفارشی (Custom Kernels) نداشت، ثابت شد که دسترسی به عملکرد سطح اول در AMD اکنون یک مسئله پشتیبانی است، نه یک بنبست نرمافزاری. با استاندارد شدن این هستهها، انگیزه مالی برای مهاجرت به AMD غیرقابل چشمپوشی خواهد بود.
گام بعدی شما
- اگر در حال مدیریت خوشههای پردازشی هستید، بررسی کنید که آیا مدلهای شما با فرمت MXFP4 سازگار هستند یا خیر.
- پشتهی sglang را برای استقرار مدلهای MoE روی سختافزار AMD تست کنید تا هزینه استنتاج خود را بسنجید.
- تغییر پیکربندی از TP به DP را برای بهینهسازی توان عملیاتی در مدلهای پیشرو بررسی کنید.
اما اثر این رقابت قیمتی بر استراتژیهای سختافزاری مراکز داده در سال ۲۰۲۷ حتی پیچیدهتر است؛ به تحلیل ما دربارهی معماریهای جدید حافظه HBM مراجعه کنید.




گفتگو