ارکایو: کاهش ۹۰ درصدی فشار حافظه KV در معماری FM-DS-V4

اگر قصد دارید مدل‌هایی با پنجره متنی چند صد هزار توکنی را اجرا کنید، احتمالاً با دیوار سخت‌افزاری حافظه GPU برخورد کرده‌اید. معماری جدید FlashMemory-DeepSeek-V4 (FM-DS-V4) این دیوار را با کاهش بیش از ۹۰ درصدی فشار حافظه KV-Cache فرو می‌ریزد.

طبق گزارش منتشر شده در ۹ ژوئن ۲۰۲۶ در سایت arxiv.org، این سیستم توانسته است در مقیاس ۵۰۰ هزار توکن، سربار فیزیکی حافظه را بدون تخریب توانایی‌های استدلالی مدل اصلی مهار کند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری پنجره‌های متنی اشاره کردیم، مدیریت حافظه در هنگام استنتاج (Inference) هم‌واره نقطه ضعف مدل‌های زبانی بزرگ (LLM) بوده است؛ چرا که مدل‌های متداول باید تمام حافظه KV را در طول رمزگشایی بارگذاری کنند.

این معماری بر پایه توجه پراکنده پیش‌رو (Lookahead Sparse Attention - LSA) و یک ایندکس‌کننده حافظه عصبی (Neural Memory Indexer) بنا شده است. بر اساس مستندات ارکایو، ویژگی‌های فنی این رویکرد عبارتند از:

استراتژی آموزش مجزا (Decoupled Training) که نیاز به بارگذاری مدل اصلی در GPU را در طول آموزش ایندکس‌کننده حذف می‌کند.
کاهش میانگین ردپای حافظه KV به ۱۳.۵ درصد نسبت به حالت پایه.
افزایش مطلق دقت ۰.۶ درصدی در بنچمارک‌های کلیدی مانند LongBench-v2 و RULER.

این رویکرد «کمتر، بیشتر است» (Less is More)، این فرض قدیمی را که ایندکس‌کنندگان حافظه باید به‌طور مشترک با مدل اصلی آموزش ببینند، به چالش می‌کشد. در واقع ایندکس‌کننده اکنون مانند یک «سیگنال‌پاک‌کن» برای وظایفی عمل می‌کند که به حافظه جهانی بلندمدت وابسته هستند و به‌شدت نیاز سخت‌افزاری برای سرویس‌دهی به مدل‌های با پنجره متنی عظیم را کاهش می‌دهد.

گام بعدی شما

بررسی امکان پیاده‌سازی استراتژی ایندکس‌گذاری مجزا در مدل‌های با وزن‌های باز (Open Weights) دیگر.
تحلیل هزینه استنتاج (Inference Cost) در مقیاس یک میلیون توکن با استفاده از LSA.
ارزیابی تأثیر این کاهش حافظه بر سرعت پاسخ‌دهی (Latency) در سیستم‌های RAG.

اما تأثیر این تحول در کاهش هزینه‌های عملیاتی مراکز داده حتی خیره‌کننده‌تر است — به تحلیل ما درباره‌ی بهینه‌سازی لایه‌های توجه در مدل‌های زبانی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

استراتژی آموزش مجزا (Decoupled Training) که نیاز به بارگذاری مدل اصلی در GPU را در طول آموزش ایندکس‌کننده حذف می‌کند.
کاهش میانگین ردپای حافظه KV به ۱۳.۵ درصد نسبت به حالت پایه.
افزایش مطلق دقت ۰.۶ درصدی در بنچمارک‌های کلیدی مانند LongBench-v2 و RULER.

گام بعدی شما

بررسی امکان پیاده‌سازی استراتژی ایندکس‌گذاری مجزا در مدل‌های با وزن‌های باز (Open Weights) دیگر.
تحلیل هزینه استنتاج (Inference Cost) در مقیاس یک میلیون توکن با استفاده از LSA.
ارزیابی تأثیر این کاهش حافظه بر سرعت پاسخ‌دهی (Latency) در سیستم‌های RAG.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ارکایو: کاهش ۹۰ درصدی فشار حافظه KV در معماری FM-DS-V4

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ارکایو: کاهش ۹۰ درصدی فشار حافظه KV در معماری FM-DS-V4

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ارکایو: کاهش ۹۰ درصدی فشار حافظه KV در معماری FM-DS-V4

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ارکایو: کاهش ۹۰ درصدی فشار حافظه KV در معماری FM-DS-V4

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران