اگر از سیستمهای تولید بازیابیافزا (Retrieval-Augmented Generation - RAG) در مقیاس بالا استفاده میکنید، میدانید که تأخیر در تولید اولین توکن (TTFT) بزرگترین مانع در مسیر تجربه کاربر است. حالا یک رویکرد جدید، این گلوگاه را با تغییر بنیادین در نحوه مدیریت حافظه هدف قرار داده است.
بر اساس مستندات پژوهشی منتشر شده در arxiv.org در تاریخ ۹ ژوئن ۲۰۲۶، متد SIFT (Selective-Index For Fast Compute) توانسته است سرعت پیشتولید (Prefill) را ۱.۷۱ برابر افزایش دهد. این موفقیت از طریق حذف محاسبات تکراری در هنگام تزریق اسناد مشابه به پرسوجوهای مختلف کاربران حاصل شده است.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی حافظهی KV اشاره کردیم، چالش اصلی همواره توازن بین سرعت دسترسی به دیسک و هزینه محاسبات مجدد بود. SIFT این مشکل را با بهرهگیری از دو بینش کلیدی حل میکند:
- ناپایداری توجه محلی (Local-Attention Invariance): امتیازات توجه بالا در یک سند، صرفنظر از اسناد اطراف، ثابت میمانند.
- ثبات توجه متقاطع (Cross-Attention Consistency): توکنهایی که توجه داخلی بالایی دارند، معمولاً توجه متقاطع اسناد بعدی را نیز جذب میکنند.
به جای ذخیرهسازی تنسورهای عظیم KV (Key-Value)، این سیستم تنها دو بردار بیتی فشرده از مکانهای با توجه بالا را نگه میدارد. طبق گزارش پژوهشگران، این تغییر باعث میشود ردپای ذخیرهسازی تا ۲۴ هزار برابر کوچکتر شود. در مرحله پیشتولید، سیستم تنها برای مکانهای علامتگذاری شده محاسبات را انجام میدهد و دقت خروجی را در محدوده ۱٪ نسبت به محاسبات کامل حفظ میکند.
این چرخش راهبردی، تمرکز صنعت را از «کش کردن دادههای خام» به «اندیسگذاری متادیتای توجه» منتقل میکند. SIFT ثابت کرد که اندیسهای دقیق برای پیشتولید با دقت بالا کافی هستند و نیاز به پهنای باند بسیار بالای I/O دیسک در معماریهای RAG را به چالش میکشد.
گام بعدی شما
- بررسی ادغام تکنیکهای اندیسگذاری بردار بیتی در لولههای پیشپردازش پایگاههای داده برداری.
- تحلیل نرخ خطا در محیطهای عملیاتی با حجم دادههای بسیار بالا برای اعتبارسنجی ادعای دقت ۱٪.
- ارزیابی کاهش هزینه استنتاج (Inference) در مدلهایی با پنجره متنی بسیار گسترده.
اما این بهینهسازی تنها بخشی از پازل است؛ تأثیر مدلهای استدلالی بر کاهش نیاز به RAG را در گزارش بعدی بررسی میکنیم.
گفتگو