گزارش Wafer: برتری MI355X ای‌ام‌دی در نسبت عملکرد به قیمت

اگر امروز برای استقرار مدل‌های زاینده در مقیاس عظیم بودجه‌بندی می‌کنید، تفاوت قیمت سخت‌افزاری میان دو غول تراشه می‌تواند سودآوری شما را تغییر دهد. طبق گزارش ۳ ژوئیه ۲۰۲۶ از Wafer، پردازنده MI355X شرکت AMD تقریباً ۲.۷۵ برابر ارزان‌تر از NVIDIA B300 است، در حالی که مشخصات سخت‌افزاری مشابهی ارائه می‌دهد.

با افزایش شدید تقاضا برای استنتاج (Inference) — که مثل لحظهٔ خودِ آشپزی است، نه دوره‌ی آموزش آشپز — برای پشتیبانی از مدل‌های پیشرو مانند Claude Fable، GLM5.2 و Minimax M3، عرضه پردازنده‌های Blackwell انویدیا نتوانسته با این سرعت پیش برود. این کمبود باعث افزایش قیمت‌های انویدیا شده و هزینه تولید هر توکن را برای ارائه‌دهندگان بالا برده است. برای کسانی که در حال مقیاس‌بندی تولید هستند، فاصله میان برتری نرم‌افزاری انویدیا و مزیت قیمتی ای‌ام‌دی در حال کم شدن است، چرا که عامل‌های بهینه‌سازی در حال بهبود هستند.

شکاف نرم‌افزاری

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی اکوسیستم سخت‌افزاری مدل‌های بازمتن اشاره کردیم، همواره نرم‌افزار گلوگاه اصلی بوده است. به طور تاریخی، برتری نرم‌افزاری انویدیا و پشتیبانی از «روز صفر» (Day-0 support) اجازه می‌داد ارائه‌دهندگان سریع‌تر و با اصطکاک کمتر مدل‌ها را سرویس‌دهی کنند. در مقابل، در پشته‌ی MI355X / ROCm، عملکرد سطح اول (State-of-the-art) به‌ندرت به‌صورت پیش‌فرض و «از جعبه» (Out of the box) در دسترس است. ارائه‌دهندگان اغلب برای یافتن ایمیج‌هایی که حتی این مدل‌های پیشرو را اجرا کنند دچار مشکل می‌شوند؛ این بدان معناست که ساخت و بهینه‌سازی می‌تواند هفته‌ها زمان مهندسی طلب کند. تا زمانی که بهینه‌سازی تمام شود، اغلب مدل جدیدتری منتشر شده است و AMD را در وضعیت تعقیب قرار می‌دهد.

برای اثبات اینکه این شکاف در حال بسته شدن است، Wafer مدل GLM5.2 را روی ظرفیت MI355X ارائه‌شده توسط TensorWave آزمایش کرد. آن‌ها بر روی یک حجم کاری (Workload) مشخص متمرکز شدند که شامل ۲۰ هزار توکن ورودی، ۱ هزار توکن خروجی و نرخ ۶۰ درصد Cache Hit بود.

عملکرد به ازای هر دلار در حال افزایش و ارزان‌تر شدن است | ویفر

بر اساس مستندات این آزمایش، توان عملیاتی کل ۲۶۲۶ توکن بر ثانیه در هر گره (node) با نرخ ۲.۴ درخواست در ثانیه (RPS) به دست آمد. زمان تا نخستین توکن (TTFT) نیز کمتر یا مساوی ۵ ثانیه بود. اگرچه این عدد تنها ۸۰ درصد از عملکرد اندازه‌گیری شده روی یک B200 است (که به ۳۱۹۲ توکن بر ثانیه در ۳.۰ RPS رسید)، اما چون MI355X بیش از ۲ برابر ارزان‌تر است، در نبرد بهره‌وری و نسبت عملکرد به قیمت پیروز می‌شود.

معیارهای عملکرد

داده‌های زیر مقیاس‌پذیری MI355X را تحت حجم کاری تعریف‌شده نشان می‌دهد:

۰.۵ RPS: ۴۴۹ توکن/ثانیه در گره (TTFT p50/p95: ۰.۵۹ ثانیه / ۰.۶۰ ثانیه)
۱.۰ RPS: ۹۷۴ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۰ ثانیه / ۰.۸۱ ثانیه)
۱.۵ RPS: ۱۹۱۳ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۲ ثانیه / ۱.۰۳ ثانیه)
۲.۰ RPS: ۱۹۴۴ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۲ ثانیه / ۱.۰۵ ثانیه)
۲.۲۵ RPS: ۲۰۸۹ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۳ ثانیه / ۱.۲۳ ثانیه)
۲.۴ RPS (اشباع): ۲۶۲۶ توکن/ثانیه در گره (TTFT p50/p95: ۰.۸۱ ثانیه / ۲.۲۲ ثانیه)

فرآیند بهینه‌سازی

دستیابی به این ارقام مستلزم عبور از اصطکاک‌های معمول پشته‌ی ROCm بود. تیم فنی از چندین چرخش تکینیکی خاص استفاده کرد:

اول، کوانتایزیشن (Quantization) — شبیه وقتی که کیفیت یک عکس را کمی پایین می‌آوریم تا حجمش برای ارسال سریع‌تر کم شود. آن‌ها از ابزار AMD Quark برای تبدیل مدل پایه bf16 GLM-5.2 به فرمت MXFP4 استفاده کردند. این روش در مقایسه با کوانتایزیشن رسمی FP8 شرکت z-ai در چندین محک، بدون افت کیفیت (Lossless) ظاهر شد: در GSM8K (۰.۹۵۵ در برابر ۰.۹۶۵)، در GPQA-Diamond (۰.۹۰۲۶ در برابر ۰.۹۲۱۷) و در tau2 macro، جایی که MXFP4 حتی امتیاز را از ۰.۸۱۹ به ۰.۸۳۴ بهبود بخشید.

دوم، انتخاب چارچوب؛ تیم ابتدا vLLM را تست کرد (که فاقد مسیر عملی MXFP4 + GlmMoeDsa بود) و سپس ATOM را بررسی نمود (جایی که خروجی در متن‌های طولانی دچار افت کیفیت شد). در نهایت، تیم از sglang استفاده کرد زیرا کمترین اصطکاک را برای پشتیبانی بومی داشت و هنگام استفاده از کوانتایزیشن، انسجام مدل را حفظ می‌کرد.

سوم، رفع باگ‌های نرم‌افزاری؛ آن‌ها دو باگ بحرانی را در ایمیج ROCm مربوط به sglang برطرف کردند. نخست، یک عدم تطابق نام‌گذاری را حل کردند که در آن پیشوند MTP head به اشتباه به عنوان model.decoder.* ثبت شده بود، در حالی که باید از پیشوند model.layers.78.mlp.shared_experts.* مورد استفاده در Quark استفاده می‌شد. این اصلاح، کرش ناشی از عدم تطابق اندازه (Shape mismatch) را برطرف و رمزگشایی گمانه‌زنانه را فعال کرد. دوم، یک گارد #ifdef USE_ROCM به یک هسته (Kernel) متادیتای چند-مرحله‌ای ادغام‌شده اضافه کردند که به اشتباه برای اعماق پیش‌نویس (Draft depths) بزرگتر یا مساوی ۴، فایل cuda_runtime.h را فراخوانی می‌کرد.

این اصلاحات باعث فعال شدن رمزگشایی گمانه‌زنانه (Speculative Decoding) — مثل شطرنج‌بازی که چند حرکت جلوتر را می‌بیند تا سریع‌تر تصمیم بگیرد — شد که منجر به افزایشی نزدیک به ۳ برابر در توان عملیاتی تک-جریانی شد و در نهایت به ۲۱۳ توکن بر ثانیه برای ۱۰ هزار توکن ورودی و ۱.۵ هزار توکن خروجی رسید. این نتیجه با بهینه‌سازی‌های پیکربندی شامل --kv-cache-dtype fp8_e4m3 و --enable-aiter-allreduce-fusion تقویت شد.

مقیاس‌بندی توان عملیاتی

تیم دریافت که حجم کاری عمدتاً محدود به مرحله‌ی پیش‌پُرکردن (Prefill) است. در حالی که پیکربندی Tensor Parallel 8 (TP8) برای رمزگشایی تک-جریانی بهترین بود و مدل GLM5.2-MXFP4 را با سرعت ۱۴۶۱ توکن/ثانیه در گره اجرا می‌کرد، اما تغییر به پیکربندی TP4×DP2 توان عملیاتی کل را به شدت بهبود بخشید و آن را در ۲.۰ RPS به ۱۹۴۴ توکن بر ثانیه رساند.

در نهایت، آن‌ها شناسایی کردند که ایمیج sglang به دلیل نبود پیکربندی‌های تنظیم‌شده برای a8w8/fp8 در aiter، از یک جایگزین کند (Fallback) به نام FlyDSL برای MoEهای fp4 استفاده می‌کرد. با تنظیم دستی انتخاب هسته‌ی MoE برای اشکال خاص مدل GLM (ابعاد مدل ۶۱۴۴، میان‌بافte moe ۲۰۴۸، E=۲۵۶، topk=۸)، آن‌ها به رقم نهایی ۲۶۲۶ توکن بر ثانیه در هر گره دست یافتند.

این تغییر نشان می‌دهد که «خندق CUDA» در حال تخریب است. برای خواننده، این بدان معناست که مانع اصلی برای مهاجرت از انویدیا دیگر قدرت خام سیلیکون نیست، بلکه زمان مهندسی صرف شده برای پشتیبانی نرم‌افزاری است. از آنجا که این مطالعه — برخلاف کارهای پیشین با Qwen3.5 397B — نیازی به نوشتن هسته‌های سفارشی (Custom Kernels) نداشت، ثابت شد که دسترسی به عملکرد سطح اول در AMD اکنون یک مسئله پشتیبانی است، نه یک بن‌بست نرم‌افزاری. با استاندارد شدن این هسته‌ها، انگیزه مالی برای مهاجرت به AMD غیرقابل چشم‌پوشی خواهد بود.

گام بعدی شما

اگر در حال مدیریت خوشه‌های پردازشی هستید، بررسی کنید که آیا مدل‌های شما با فرمت MXFP4 سازگار هستند یا خیر.
پشته‌ی sglang را برای استقرار مدل‌های MoE روی سخت‌افزار AMD تست کنید تا هزینه استنتاج خود را بسنجید.
تغییر پیکربندی از TP به DP را برای بهینه‌سازی توان عملیاتی در مدل‌های پیشرو بررسی کنید.

اما اثر این رقابت قیمتی بر استراتژی‌های سخت‌افزاری مراکز داده در سال ۲۰۲۷ حتی پیچیده‌تر است؛ به تحلیل ما درباره‌ی معماری‌های جدید حافظه HBM مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

شکاف نرم‌افزاری

عملکرد به ازای هر دلار در حال افزایش و ارزان‌تر شدن است | ویفر

معیارهای عملکرد

داده‌های زیر مقیاس‌پذیری MI355X را تحت حجم کاری تعریف‌شده نشان می‌دهد:

۰.۵ RPS: ۴۴۹ توکن/ثانیه در گره (TTFT p50/p95: ۰.۵۹ ثانیه / ۰.۶۰ ثانیه)
۱.۰ RPS: ۹۷۴ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۰ ثانیه / ۰.۸۱ ثانیه)
۱.۵ RPS: ۱۹۱۳ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۲ ثانیه / ۱.۰۳ ثانیه)
۲.۰ RPS: ۱۹۴۴ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۲ ثانیه / ۱.۰۵ ثانیه)
۲.۲۵ RPS: ۲۰۸۹ توکن/ثانیه در گره (TTFT p50/p95: ۰.۶۳ ثانیه / ۱.۲۳ ثانیه)
۲.۴ RPS (اشباع): ۲۶۲۶ توکن/ثانیه در گره (TTFT p50/p95: ۰.۸۱ ثانیه / ۲.۲۲ ثانیه)

فرآیند بهینه‌سازی

مقیاس‌بندی توان عملیاتی

گام بعدی شما

اگر در حال مدیریت خوشه‌های پردازشی هستید، بررسی کنید که آیا مدل‌های شما با فرمت MXFP4 سازگار هستند یا خیر.
پشته‌ی sglang را برای استقرار مدل‌های MoE روی سخت‌افزار AMD تست کنید تا هزینه استنتاج خود را بسنجید.
تغییر پیکربندی از TP به DP را برای بهینه‌سازی توان عملیاتی در مدل‌های پیشرو بررسی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Wafer: برتری MI355X ای‌ام‌دی در نسبت عملکرد به قیمت

شکاف نرم‌افزاری

معیارهای عملکرد

فرآیند بهینه‌سازی

مقیاس‌بندی توان عملیاتی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Wafer: برتری MI355X ای‌ام‌دی در نسبت عملکرد به قیمت

شکاف نرم‌افزاری

معیارهای عملکرد

فرآیند بهینه‌سازی

مقیاس‌بندی توان عملیاتی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Wafer: برتری MI355X ای‌ام‌دی در نسبت عملکرد به قیمت

شکاف نرم‌افزاری

معیارهای عملکرد

فرآیند بهینه‌سازی

مقیاس‌بندی توان عملیاتی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Wafer: برتری MI355X ای‌ام‌دی در نسبت عملکرد به قیمت

شکاف نرم‌افزاری

معیارهای عملکرد

فرآیند بهینه‌سازی

مقیاس‌بندی توان عملیاتی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران