چرا معماری ترکیبی CPU-GPU نیاز به کوانتیزه کردن مدل‌های MoE را از بین می‌برد؟

منبع خبر

۲۱ خرداد ۱۴۰۵·۲۱ خرداد ۱۴۰۵۲ دقیقه مطالعه

چرا معماری ترکیبی CPU-GPU نیاز به کوانتیزه کردن مدل‌های MoE را از بین می‌برد؟

اشتراک‌گذاری

واقعاً چه چیز جدید است؟

تغییر بنیادین در مدل پردازشی؛ به جای تلاش برای گنجاندن کل مدل در VRAM، از یک سیستم هماهنگ CPU-GPU برای مدیریت وزن‌ها استفاده شده که استنتاج با دقت اصلی (Original Precision) را در مقیاس خانگی ممکن می‌کند.

اگر تاکنون برای اجرای مدل‌های زبانی بزرگ در محیط محلی، بین کیفیت استدلال و سرعت استنتاج یکی را انتخاب می‌کردید، این توازن تغییر کرده است. اکنون مدل‌های MoE (ترکیبی از خبرگان) با دقت اصلی می‌توانند بدون تکیه به APIهای ابری، روی سخت‌افزارهای خانگی با کیفیت خدمات سطح سازمانی اجرا شوند.

تا پیش از این، استقرار محلی مدل‌های زبانی با شکاف عملکردی شدید در زمان رسیدن به اولین توکن (TTFT) و نرخ خروجی مواجه بود. اکثر سیستم‌های محلی برای جای دادن مدل در حافظه VRAM به کوانتایزیشن (Quantization) تهاجمی روی می‌آورند که اغلب منجر به تخریب کیفیت استدلال مدل می‌شود. بر اساس پژوهشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، راهکار این معضل، تغییر نگاه به CPU و GPU از دو واحد مجزا به یک سیستم ترکیبی و هماهنگ است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های حافظه در مدل‌های بازمتن اشاره کردیم، گلوگاه اصلی همواره پهنای باند انتقال داده بوده است. این سیستم جدید برای پر کردن شکاف میان محیط محلی و ابری، چندین بهینه‌سازی کلیدی را معرفی می‌کند:

Stream-loading prefill (SLP): افزایش نرخ پردازش تا ۱۲۰۰ توکن در ثانیه که اجازه می‌دهد پرامپت‌های ۳۲ هزار توکنی در کمتر از ۳۰ ثانیه پردازش شوند.
Distributed SLP (DSLP): بهره‌گیری از موازی‌سازی خبرگان SmallEP برای رسیدن به نرخ ۱۸۰۰ توکن در ثانیه روی دو پردازنده گرافیکی RTX 5090.
هسته‌ی AVX-512-optimized FP8 GEMV: کاهش تأخیر استنتاج بومی در CPU بین ۴ تا ۵ برابر.
جدا‌سازی پیش‌پردازش و رمزگشایی (Prefill-Decode Disaggregation): استفاده از وزن‌های مشترک با کپی صفر (Zero-copy) برای حفظ هم‌زمانی با افزایش تأخیر کمتر از ۱۵ درصد.

طبق گزارش arxiv.org، این سیستم در مدل DeepSeek-V3 با دقت INT4 به نرخ ۲۸ توکن در ثانیه و در نسخه دست‌نخورده FP8 به ۲۱.۵ توکن در ثانیه دست یافته است.

این معماری، فرض بنیادین در استقرار محلی را از «چقدر می‌توانیم مدل را فشرده کنیم» به «چقدر می‌توانیم داده‌ها را بین CPU و GPU بهینه جابه‌جا کنیم» تغییر می‌دهد. این دستاورد برای توسعه‌دهندگانی که به قدرت کامل استدلال مدل‌های پرچم‌دار نیاز دارند اما نمی‌خواهند حریم خصوصی را فدا کنند یا هزینه‌های بالای API را بپردازند، یک نقطه عطف است.

گام بعدی شما

بررسی ادغام هسته‌های AVX-512 FP8 در موتورهای استنتاج متن‌باز مانند vLLM یا llama.cpp.
ارزیابی نرخ توکن بر ثانیه در مدل‌های MoE با دقت FP8 روی سخت‌افزارهای تک-GPU در مقایسه با سیستم‌های ترکیبی.
تحلیل اثر این معماری بر کاهش هزینه‌های عملیاتی برای استقرار مدل‌های محلی در سازمان‌ها.

اما داستان سخت‌افزاری این تحول در معماری‌های نسل بعد حتی پیچیده‌تر است؛ برای درک این موضوع به بررسی ما درباره‌ی تراشه‌های نسل Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این رویکرد با تکیه بر تخصص در طراحی مشترک سخت‌افزار-نرم‌افزار، اجازه می‌دهد مدل‌های سنگین بدون افت کیفیت استدلال در محیط‌های خصوصی اجرا شوند. این موضوع کنترل کامل بر داده‌ها و حذف وابستگی به زیرساخت‌های ابری گران‌قیمت را ممکن می‌کند.

تأثیر برای ایران

برای توسعه‌دهندگان ایرانی که با محدودیت‌های دسترسی به APIهای ابری و تحریم‌های سرویس‌های پردازشی مواجه‌اند، این روش امکان اجرای مدل‌های قدرتمند MoE را با سخت‌افزارهای موجود و بدون افت کیفیت فراهم می‌کند.

·نگاه ما

تحریریه دات‌هوش

تحلیل ما نشان می‌دهد که این پژوهش، پارادایم استقرار محلی را از «بهینه‌سازی نرم‌افزاری» (فشرده‌سازی) به «ارکستراسیون سخت‌افزاری» منتقل کرده است. آنچه از این خبر می‌توان آموخت این است که پیشرفت در استنتاج محلی دیگر تنها به افزایش VRAM وابسته نیست، بلکه به مدیریت هوشمند جریان داده بین حافظه‌ی سیستم و حافظه‌ی گرافیکی بازمی‌گردد.

منابع

arxiv.orgArXiv Computer Science (cs.AI)

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

موضوع‌ها

هوش لبه مدل‌های بازوزن

گفتگو

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت در هر شماره. به‌زودی راه‌اندازی می‌شود — هر پنج‌شنبه صبح.

خبر کلیدی

ابزار کاربردی

پرامپت حرفه‌ای

تحلیل پژوهش

به‌زودی

زاویه‌ی ایرانی

به‌زودی

تمرین این هفته

به‌زودی

یاتلگرام RSS

راهنماهای دات‌هوش

راهنماهای کاربردیِ دات‌هوش برای کار با هوش مصنوعی — از همین‌جا شروع کنید:

دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Stream-loading prefill (SLP): افزایش نرخ پردازش تا ۱۲۰۰ توکن در ثانیه که اجازه می‌دهد پرامپت‌های ۳۲ هزار توکنی در کمتر از ۳۰ ثانیه پردازش شوند.
Distributed SLP (DSLP): بهره‌گیری از موازی‌سازی خبرگان SmallEP برای رسیدن به نرخ ۱۸۰۰ توکن در ثانیه روی دو پردازنده گرافیکی RTX 5090.
هسته‌ی AVX-512-optimized FP8 GEMV: کاهش تأخیر استنتاج بومی در CPU بین ۴ تا ۵ برابر.
جدا‌سازی پیش‌پردازش و رمزگشایی (Prefill-Decode Disaggregation): استفاده از وزن‌های مشترک با کپی صفر (Zero-copy) برای حفظ هم‌زمانی با افزایش تأخیر کمتر از ۱۵ درصد.

گام بعدی شما

بررسی ادغام هسته‌های AVX-512 FP8 در موتورهای استنتاج متن‌باز مانند vLLM یا llama.cpp.
ارزیابی نرخ توکن بر ثانیه در مدل‌های MoE با دقت FP8 روی سخت‌افزارهای تک-GPU در مقایسه با سیستم‌های ترکیبی.
تحلیل اثر این معماری بر کاهش هزینه‌های عملیاتی برای استقرار مدل‌های محلی در سازمان‌ها.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا معماری ترکیبی CPU-GPU نیاز به کوانتیزه کردن مدل‌های MoE را از بین می‌برد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا معماری ترکیبی CPU-GPU نیاز به کوانتیزه کردن مدل‌های MoE را از بین می‌برد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران