اگر هنوز تصور میکنید برای دستیابی به دقت ترنسفورمرها باید هزینه حافظه را پذیرفت، معماری KVM این پیشفرض را به چالش میکشد. گلوگاه حافظه در KV-cache سالهاست که سدی در برابر مقیاسپذیری مدلهای زبانی با پنجرههای متنی بلند بوده است.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای معماری ترنسفورمر اشاره کردیم، صنعت همواره در تلاش بوده تا تعادلی میان بازخوانی دقیق (High-fidelity recall) در ترنسفورمرها و کارایی RNNهای خطی (Linear RNNs) پیدا کند. KVM یا میانگینهای کلید-مقدار (Key-Value Means)، یک بازگشت بلوکی (Block-recurrence) نوآورانه برای مکانیزم توجه است که اجازه میدهد مدلها بسته به نیاز تسک، از وضعیتهای با اندازه ثابت یا رشدپذیر استفاده کنند.
به نقل از مستندات منتشر شده در arXiv در تاریخ ۱۲ مه ۲۰۲۶، این سیستم تغییرات فنی حیاتی زیر را ایجاد میکند:
- مدیریت منعطف وضعیت: لایههای KVM با اندازه ثابت، یک مدل پایه ترنسفورمر را به یک RNN تکهای (Chunked RNN) قدرمند با پیچیدگی $O(N)$ تبدیل میکنند.
- بهبود کارایی: حافظههای KVM رشدپذیر، زمان پیشپردازش (Prefill) زیر-درجهدوم و رشد زیرخطی وضعیت را به ارمغان میآورند، در حالی که عملکرد رقابتی خود را در بنچمارکهای متون بلند حفظ میکنند.
- پیادهسازی استاندارد: این سیستم با استفاده از عملیاتهای استاندارد ساخته شده و از آموزش و پیشپردازش موازی در سطح تکه (Chunk-wise) پشتیبانی میکند.
- پتانسیل ترکیبی: KVM میتواند در کنار لایههای LRNN برای تقویت رمزگشایی (Decoding) در متون بلند به کار گرفته شود.
طبق گزارش پژوهشگران، این دستاورد فرضیه بنیادین «انتخاب اجباری بین وضعیت صلب RNN و حافظه گسترده ترنسفورمر» را میشکند. با فراهم کردن طیفی پیوسته از پیچیدگی زمانی پیشپردازش بین $O(N)$ و $O(N^2)$، KVM در واقع یک «لغزنده پیچیدگی» (Complexity Slider) در اختیار توسعهدهندگان قرار میدهد تا بر اساس سختافزار موجود، بین سرعت و دقت بهینهسازی کنند.
گام بعدی شما
- بررسی کد منبع و مدلهای آموزشدیده KVM که تحت لایسنس Apache 2.0 منتشر شدهاند.
- تحلیل اثر این معماری بر نسل بعدی مدلهای ترکیبی (Hybrid Models)، بهویژه برای استقرار روی دستگاه (On-device deployment).
- تست مقایسهای نرخ مصرف حافظه در مدلهای بازمتن با استفاده از لایههای KVM.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اینکه این بهینهسازیها چگونه با معماریهای جدید همسو میشوند، به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو