درون معماری DUAL-BLADE: عبور از سد حافظه در سخت‌افزارهای مصرف‌کننده

تصور کنید مدل‌های زبانی بزرگ را بدون لگ و روی سخت‌افزارهای معمولی اجرا کنید. اگر هنوز استراتژی استقرار محلی شما بر پایه‌ی روش‌های سنتی ذخیره‌سازی روی دیسک است، در واقع دارید سرعت رشد رقابتی خود را می‌کُشید.

به نقل از مقاله‌ای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، چارچوب DUAL-BLADE برای حل بحران فشار حافظه در حافظه‌های کلید-مقدار (KV Caches) معرفی شده است. طبق گزارش پژوهشگران، این سیستم به‌صورت پویا تانسورهای KV را بر اساس در دسترس بودن لحظه‌ای حافظه، به یکی از دو مسیر «حافظه‌ی صفحه» یا «مسیر مستقیم NVMe» اختصاص می‌دهد.

برای حذف سربارهای نرم‌افزاری، DUAL-BLADE سه بهینه‌سازی حیاتی را پیاده کرده است:

مسیر مستقیم NVMe (NVMe-Direct Path): با نگاشت تانسورهای KV به مناطق متوالی آدرس بلوک منطقی (LBA)، به‌طور کامل از سیستم فایل عبور کرده و دسترسی با کمترین سربار را ممکن می‌کند.
موازی‌سازی خط‌لوله تطبیقی (Adaptive Pipeline Parallelism): عملیات ورودی/خروجی ذخیره‌ساز را با دسترسی مستقیم به حافظه (DMA) در GPU همپوشانی می‌کند تا نرخ انتقال داده به حداکثر برسد.
تخصیص پویا (Dynamic Assignment): مسیر انتقال را بر اساس بودجه‌ی حافظه در زمان اجرا تغییر می‌دهد تا از توقف سیستم تحت فشار شدید جلوگیری کند.

این تغییرات معماری نتایج خیره‌کننده‌ای داشت. بر اساس مستندات این پژوهش، DUAL-BLADE تأخیر پیش‌پرورش (Prefill Latency) را تا ۳۳.۱ درصد و تأخیر رمزگشایی (Decode Latency) را تا ۴۲.۴ درصد کاهش داد، در حالی که بهره‌وری SSD را ۲.۲ برابر افزایش داد.

همان‌طور که در تحلیل قبلی ما درباره‌ی تضاد میان سرهای توجه (Attention Heads) و مدل‌های زبانی در طراحی گرافیکی اشاره کردیم، نبرد برای بهره‌وری در هوش مصنوعی زاینده (Generative AI) از لایه‌ی الگوریتمی به لایه‌ی رابط سخت‌افزار-نرم‌افزار منتقل شده است. در حالی که مکانیسم‌های توجه تعیین می‌کنند مدل چگونه فکر کند، چارچوب‌هایی مثل DUAL-BLADE تعیین می‌کنند که آیا آن مدل اصلاً روی یک دستگاه بدون کرش کردن اجرا می‌شود یا خیر.

با تکامل روش‌های تخلیه حافظه (Offloading)، گام بعدی احتمالاً مدیریت هزینه‌ی انرژی انتقال‌های سریع NVMe در دستگاه‌های لبه‌ای با باتری خواهد بود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی پیاده‌سازی‌های NVMe-direct برای کاهش تأخیر در مدل‌های محلی.
ارزیابی استراتژی‌های Offloading در محیط‌های با حافظه محدود (Edge AI).
دنبال کردن تکامل چارچوب‌های مدیریت حافظه برای مدل‌های زبانی کوچک (SLM).

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

برای حذف سربارهای نرم‌افزاری، DUAL-BLADE سه بهینه‌سازی حیاتی را پیاده کرده است:

مسیر مستقیم NVMe (NVMe-Direct Path): با نگاشت تانسورهای KV به مناطق متوالی آدرس بلوک منطقی (LBA)، به‌طور کامل از سیستم فایل عبور کرده و دسترسی با کمترین سربار را ممکن می‌کند.
موازی‌سازی خط‌لوله تطبیقی (Adaptive Pipeline Parallelism): عملیات ورودی/خروجی ذخیره‌ساز را با دسترسی مستقیم به حافظه (DMA) در GPU همپوشانی می‌کند تا نرخ انتقال داده به حداکثر برسد.
تخصیص پویا (Dynamic Assignment): مسیر انتقال را بر اساس بودجه‌ی حافظه در زمان اجرا تغییر می‌دهد تا از توقف سیستم تحت فشار شدید جلوگیری کند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی پیاده‌سازی‌های NVMe-direct برای کاهش تأخیر در مدل‌های محلی.
ارزیابی استراتژی‌های Offloading در محیط‌های با حافظه محدود (Edge AI).
دنبال کردن تکامل چارچوب‌های مدیریت حافظه برای مدل‌های زبانی کوچک (SLM).

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری DUAL-BLADE: عبور از سد حافظه در سخت‌افزارهای مصرف‌کننده

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری DUAL-BLADE: عبور از سد حافظه در سخت‌افزارهای مصرف‌کننده

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری DUAL-BLADE: عبور از سد حافظه در سخت‌افزارهای مصرف‌کننده

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون معماری DUAL-BLADE: عبور از سد حافظه در سخت‌افزارهای مصرف‌کننده

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران