اگر امروز برای اجاره تراشههای H100 هزینه میکنید، باید بدانید مسیر جایگزینی آنها باز شده است. تصور کنید بتوانید مدلهای حجیم را روی سختافزاری اجرا کنید که حافظه آن دو برابر انویدیاست و قیمت کمتری دارد.
طبق گزارش fergusfinn.com، اکنون میتوان DeepSeek-V4-Flash را با پایداری بالا روی سختافزارهای AMD MI300X اجرا کرد. این تحول در حالی رخ میدهد که قیمت اجاره H100 تا ۱۸ آوریل ۲۰۲۶، ۴۰٪ رشد کرده است. همانطور که در تحلیلهای قبلی ما دربارهی بحران عرضه GPUها اشاره کردیم، گلوگاه اصلی همیشه سختافزار نبود، بلکه نرمافزار بود.
تراشه MI300X حافظه ۱۹۲ گیگابایتی دارد که بیش از دو برابر حافظه ۸۰ گیگابایتی H100 است. با این حال، ناسازگاریهای نرمافزاری در vLLM استفادهی صنعتی از آن را سخت میکرد. تیم Doubleword برای حل این مشکل با سه مانع فنی دستوپنجه نرم کرد:
- گویشهای FP8: مدل MI300X از گویش غیر استاندارد fnuz استفاده میکند. این تفاوت باعث میشد محاسبات پیشتر با خطای دو برابر همراه باشند.
- شکافهای کرنل: کتابخانه AITER پوشش کاملی برای هستههای gfx942 نداشت. تیم Doubleword کمککنندههای خاص ROCm را پیاده کرد تا وظایف به Triton منتقل شوند.
- گرافهای HIP: برای حذف سربارهای پایتون، آنها متادیتاهای MLA را به صورت تانسورهای استاتیک بازسازی کردند.
این اقدامات باعث شد سرعت استنتاج (Inference) — همان لحظهای که مدل واقعاً جواب تولید میکند، شبیه به خودِ آشپزی و نه دورهی آموزش آن — ۸.۶٪ افزایش یابد. خروجی مدل از ۲۴۸۵ به ۲۶۹۹ توکن در ثانیه برای هر GPU رسید.
این نتیجه نشان میدهد شکاف نرمافزاری میان AMD و انویدیا در حال بسته شدن است. برای شما یعنی MI300X دیگر فقط یک «سختافزار ارزان روی کاغذ» نیست، بلکه هدفی واقعی برای استقرار مدلهای با حافظه بالا است.
گام بعدی شما
- تغییرات جدید را در مخزن عمومی Doubleword بررسی کنید تا کلاسترهای AMD خود را بهینه کنید.
- منتظر ادغام این اصلاحات در مخزن اصلی vLLM باشید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو