تصور کنید مدلهای زبانی بزرگ را بدون لگ و روی سختافزارهای معمولی اجرا کنید. اگر هنوز استراتژی استقرار محلی شما بر پایهی روشهای سنتی ذخیرهسازی روی دیسک است، در واقع دارید سرعت رشد رقابتی خود را میکُشید.
به نقل از مقالهای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، چارچوب DUAL-BLADE برای حل بحران فشار حافظه در حافظههای کلید-مقدار (KV Caches) معرفی شده است. طبق گزارش پژوهشگران، این سیستم بهصورت پویا تانسورهای KV را بر اساس در دسترس بودن لحظهای حافظه، به یکی از دو مسیر «حافظهی صفحه» یا «مسیر مستقیم NVMe» اختصاص میدهد.
برای حذف سربارهای نرمافزاری، DUAL-BLADE سه بهینهسازی حیاتی را پیاده کرده است:
- مسیر مستقیم NVMe (NVMe-Direct Path): با نگاشت تانسورهای KV به مناطق متوالی آدرس بلوک منطقی (LBA)، بهطور کامل از سیستم فایل عبور کرده و دسترسی با کمترین سربار را ممکن میکند.
- موازیسازی خطلوله تطبیقی (Adaptive Pipeline Parallelism): عملیات ورودی/خروجی ذخیرهساز را با دسترسی مستقیم به حافظه (DMA) در GPU همپوشانی میکند تا نرخ انتقال داده به حداکثر برسد.
- تخصیص پویا (Dynamic Assignment): مسیر انتقال را بر اساس بودجهی حافظه در زمان اجرا تغییر میدهد تا از توقف سیستم تحت فشار شدید جلوگیری کند.
این تغییرات معماری نتایج خیرهکنندهای داشت. بر اساس مستندات این پژوهش، DUAL-BLADE تأخیر پیشپرورش (Prefill Latency) را تا ۳۳.۱ درصد و تأخیر رمزگشایی (Decode Latency) را تا ۴۲.۴ درصد کاهش داد، در حالی که بهرهوری SSD را ۲.۲ برابر افزایش داد.
همانطور که در تحلیل قبلی ما دربارهی تضاد میان سرهای توجه (Attention Heads) و مدلهای زبانی در طراحی گرافیکی اشاره کردیم، نبرد برای بهرهوری در هوش مصنوعی زاینده (Generative AI) از لایهی الگوریتمی به لایهی رابط سختافزار-نرمافزار منتقل شده است. در حالی که مکانیسمهای توجه تعیین میکنند مدل چگونه فکر کند، چارچوبهایی مثل DUAL-BLADE تعیین میکنند که آیا آن مدل اصلاً روی یک دستگاه بدون کرش کردن اجرا میشود یا خیر.
با تکامل روشهای تخلیه حافظه (Offloading)، گام بعدی احتمالاً مدیریت هزینهی انرژی انتقالهای سریع NVMe در دستگاههای لبهای با باتری خواهد بود.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- بررسی پیادهسازیهای NVMe-direct برای کاهش تأخیر در مدلهای محلی.
- ارزیابی استراتژیهای Offloading در محیطهای با حافظه محدود (Edge AI).
- دنبال کردن تکامل چارچوبهای مدیریت حافظه برای مدلهای زبانی کوچک (SLM).




گفتگو