اگر قصد دارید مدلهایی با پنجره متنی چند صد هزار توکنی را اجرا کنید، احتمالاً با دیوار سختافزاری حافظه GPU برخورد کردهاید. معماری جدید FlashMemory-DeepSeek-V4 (FM-DS-V4) این دیوار را با کاهش بیش از ۹۰ درصدی فشار حافظه KV-Cache فرو میریزد.
طبق گزارش منتشر شده در ۹ ژوئن ۲۰۲۶ در سایت arxiv.org، این سیستم توانسته است در مقیاس ۵۰۰ هزار توکن، سربار فیزیکی حافظه را بدون تخریب تواناییهای استدلالی مدل اصلی مهار کند. همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری پنجرههای متنی اشاره کردیم، مدیریت حافظه در هنگام استنتاج (Inference) همواره نقطه ضعف مدلهای زبانی بزرگ (LLM) بوده است؛ چرا که مدلهای متداول باید تمام حافظه KV را در طول رمزگشایی بارگذاری کنند.
این معماری بر پایه توجه پراکنده پیشرو (Lookahead Sparse Attention - LSA) و یک ایندکسکننده حافظه عصبی (Neural Memory Indexer) بنا شده است. بر اساس مستندات ارکایو، ویژگیهای فنی این رویکرد عبارتند از:
- استراتژی آموزش مجزا (Decoupled Training) که نیاز به بارگذاری مدل اصلی در GPU را در طول آموزش ایندکسکننده حذف میکند.
- کاهش میانگین ردپای حافظه KV به ۱۳.۵ درصد نسبت به حالت پایه.
- افزایش مطلق دقت ۰.۶ درصدی در بنچمارکهای کلیدی مانند LongBench-v2 و RULER.
این رویکرد «کمتر، بیشتر است» (Less is More)، این فرض قدیمی را که ایندکسکنندگان حافظه باید بهطور مشترک با مدل اصلی آموزش ببینند، به چالش میکشد. در واقع ایندکسکننده اکنون مانند یک «سیگنالپاککن» برای وظایفی عمل میکند که به حافظه جهانی بلندمدت وابسته هستند و بهشدت نیاز سختافزاری برای سرویسدهی به مدلهای با پنجره متنی عظیم را کاهش میدهد.
گام بعدی شما
- بررسی امکان پیادهسازی استراتژی ایندکسگذاری مجزا در مدلهای با وزنهای باز (Open Weights) دیگر.
- تحلیل هزینه استنتاج (Inference Cost) در مقیاس یک میلیون توکن با استفاده از LSA.
- ارزیابی تأثیر این کاهش حافظه بر سرعت پاسخدهی (Latency) در سیستمهای RAG.
اما تأثیر این تحول در کاهش هزینههای عملیاتی مراکز داده حتی خیرهکنندهتر است — به تحلیل ما دربارهی بهینهسازی لایههای توجه در مدلهای زبانی مراجعه کنید.
گفتگو