GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

چگونه Doubleword شکاف نرم‌افزاری AMD MI300X را برای اجرای DeepSeek پر کرد؟

·۱۳ خرداد ۱۴۰۵۸ دقیقه مطالعه
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

حل اختصاصی تداخل گویش FP8 (fnuz) و بازسازی گراف‌های HIP؛ این تغییرات باعث تبدیل شد سخت‌افزار AMD از یک گزینه «تئوریک» به یک گزینه «عملیاتی» برای مدل‌های DeepSeek.

اگر امروز برای اجاره تراشه‌های H100 هزینه می‌کنید، باید بدانید مسیر جایگزینی آن‌ها باز شده است. تصور کنید بتوانید مدل‌های حجیم را روی سخت‌افزاری اجرا کنید که حافظه آن دو برابر انویدیاست و قیمت کمتری دارد.

طبق گزارش fergusfinn.com، اکنون می‌توان DeepSeek-V4-Flash را با پایداری بالا روی سخت‌افزارهای AMD MI300X اجرا کرد. این تحول در حالی رخ می‌دهد که قیمت اجاره H100 تا ۱۸ آوریل ۲۰۲۶، ۴۰٪ رشد کرده است. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بحران عرضه GPUها اشاره کردیم، گلوگاه اصلی همیشه سخت‌افزار نبود، بلکه نرم‌افزار بود.

تراشه MI300X حافظه ۱۹۲ گیگابایتی دارد که بیش از دو برابر حافظه ۸۰ گیگابایتی H100 است. با این حال، ناسازگاری‌های نرم‌افزاری در vLLM استفاده‌ی صنعتی از آن را سخت می‌کرد. تیم Doubleword برای حل این مشکل با سه مانع فنی دست‌وپنجه نرم کرد:

  • گویش‌های FP8: مدل MI300X از گویش غیر استاندارد fnuz استفاده می‌کند. این تفاوت باعث می‌شد محاسبات پیش‌تر با خطای دو برابر همراه باشند.
  • شکاف‌های کرنل: کتابخانه AITER پوشش کاملی برای هسته‌های gfx942 نداشت. تیم Doubleword کمک‌کننده‌های خاص ROCm را پیاده کرد تا وظایف به Triton منتقل شوند.
  • گراف‌های HIP: برای حذف سربارهای پایتون، آن‌ها متادیتاهای MLA را به صورت تانسورهای استاتیک بازسازی کردند.

این اقدامات باعث شد سرعت استنتاج (Inference) — همان لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه به خودِ آشپزی و نه دوره‌ی آموزش آن — ۸.۶٪ افزایش یابد. خروجی مدل از ۲۴۸۵ به ۲۶۹۹ توکن در ثانیه برای هر GPU رسید.

این نتیجه نشان می‌دهد شکاف نرم‌افزاری میان AMD و انویدیا در حال بسته شدن است. برای شما یعنی MI300X دیگر فقط یک «سخت‌افزار ارزان روی کاغذ» نیست، بلکه هدفی واقعی برای استقرار مدل‌های با حافظه بالا است.

گام بعدی شما

  • تغییرات جدید را در مخزن عمومی Doubleword بررسی کنید تا کلاسترهای AMD خود را بهینه کنید.
  • منتظر ادغام این اصلاحات در مخزن اصلی vLLM باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این دستاورد با تکیه بر تجربه عملی در بهینه‌سازی کرنل‌ها، فشار قیمتی را بر انحصار انویدیا افزایش می‌دهد. دسترسی به VRAM بیشتر با هزینه کمتر، استقرار مدل‌های زبانی بزرگ را برای شرکت‌های کوچک‌تر ممکن می‌کند.

تأثیر برای ایران

به‌دلیل تحریم‌ها، دسترسی به این سخت‌افزارها دشوار است، اما کاهش هزینه‌های استنتاج در ابرهای خارجی، برای استارتاپ‌های ایرانی که از APIها استفاده می‌کنند، خبر تازه‌ای است.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما این است که «خندق» انویدیا دیگر در سخت‌افزار نیست، بلکه در اکوسیستم نرم‌افزاری CUDA است. موفقیت Doubleword نشان می‌دهد که با کمک ابزارهای کدنویسی عامل‌محور، هزینه‌ی عبور از این دیوار نرم‌افزاری به‌شدت کاهش یافته و سخت‌افزارهای جایگزین به‌سرعت به بلوغ تولید می‌رسند.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه