اگر تاکنون برای اجرای مدلهای زبانی بزرگ در محیط محلی، بین کیفیت استدلال و سرعت استنتاج یکی را انتخاب میکردید، این توازن تغییر کرده است. اکنون مدلهای MoE (ترکیبی از خبرگان) با دقت اصلی میتوانند بدون تکیه به APIهای ابری، روی سختافزارهای خانگی با کیفیت خدمات سطح سازمانی اجرا شوند.
تا پیش از این، استقرار محلی مدلهای زبانی با شکاف عملکردی شدید در زمان رسیدن به اولین توکن (TTFT) و نرخ خروجی مواجه بود. اکثر سیستمهای محلی برای جای دادن مدل در حافظه VRAM به کوانتایزیشن (Quantization) تهاجمی روی میآورند که اغلب منجر به تخریب کیفیت استدلال مدل میشود. بر اساس پژوهشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، راهکار این معضل، تغییر نگاه به CPU و GPU از دو واحد مجزا به یک سیستم ترکیبی و هماهنگ است.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای حافظه در مدلهای بازمتن اشاره کردیم، گلوگاه اصلی همواره پهنای باند انتقال داده بوده است. این سیستم جدید برای پر کردن شکاف میان محیط محلی و ابری، چندین بهینهسازی کلیدی را معرفی میکند:
- Stream-loading prefill (SLP): افزایش نرخ پردازش تا ۱۲۰۰ توکن در ثانیه که اجازه میدهد پرامپتهای ۳۲ هزار توکنی در کمتر از ۳۰ ثانیه پردازش شوند.
- Distributed SLP (DSLP): بهرهگیری از موازیسازی خبرگان SmallEP برای رسیدن به نرخ ۱۸۰۰ توکن در ثانیه روی دو پردازنده گرافیکی RTX 5090.
- هستهی AVX-512-optimized FP8 GEMV: کاهش تأخیر استنتاج بومی در CPU بین ۴ تا ۵ برابر.
- جداسازی پیشپردازش و رمزگشایی (Prefill-Decode Disaggregation): استفاده از وزنهای مشترک با کپی صفر (Zero-copy) برای حفظ همزمانی با افزایش تأخیر کمتر از ۱۵ درصد.
طبق گزارش arxiv.org، این سیستم در مدل DeepSeek-V3 با دقت INT4 به نرخ ۲۸ توکن در ثانیه و در نسخه دستنخورده FP8 به ۲۱.۵ توکن در ثانیه دست یافته است.
این معماری، فرض بنیادین در استقرار محلی را از «چقدر میتوانیم مدل را فشرده کنیم» به «چقدر میتوانیم دادهها را بین CPU و GPU بهینه جابهجا کنیم» تغییر میدهد. این دستاورد برای توسعهدهندگانی که به قدرت کامل استدلال مدلهای پرچمدار نیاز دارند اما نمیخواهند حریم خصوصی را فدا کنند یا هزینههای بالای API را بپردازند، یک نقطه عطف است.
گام بعدی شما
- بررسی ادغام هستههای AVX-512 FP8 در موتورهای استنتاج متنباز مانند vLLM یا llama.cpp.
- ارزیابی نرخ توکن بر ثانیه در مدلهای MoE با دقت FP8 روی سختافزارهای تک-GPU در مقایسه با سیستمهای ترکیبی.
- تحلیل اثر این معماری بر کاهش هزینههای عملیاتی برای استقرار مدلهای محلی در سازمانها.
اما داستان سختافزاری این تحول در معماریهای نسل بعد حتی پیچیدهتر است؛ برای درک این موضوع به بررسی ما دربارهی تراشههای نسل Blackwell مراجعه کنید.


گفتگو