چگونه SIFT با جایگزینی تنسورهای KV سرعت پیش‌تولید RAG را ۱.۷۱ برابر کرد؟

اگر از سیستم‌های تولید بازیابی‌افزا (Retrieval-Augmented Generation - RAG) در مقیاس بالا استفاده می‌کنید، می‌دانید که تأخیر در تولید اولین توکن (TTFT) بزرگ‌ترین مانع در مسیر تجربه کاربر است. حالا یک رویکرد جدید، این گلوگاه را با تغییر بنیادین در نحوه مدیریت حافظه هدف قرار داده است.

بر اساس مستندات پژوهشی منتشر شده در arxiv.org در تاریخ ۹ ژوئن ۲۰۲۶، متد SIFT (Selective-Index For Fast Compute) توانسته است سرعت پیش‌تولید (Prefill) را ۱.۷۱ برابر افزایش دهد. این موفقیت از طریق حذف محاسبات تکراری در هنگام تزریق اسناد مشابه به پرس‌وجوهای مختلف کاربران حاصل شده است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی حافظه‌ی KV اشاره کردیم، چالش اصلی همواره توازن بین سرعت دسترسی به دیسک و هزینه محاسبات مجدد بود. SIFT این مشکل را با بهره‌گیری از دو بینش کلیدی حل می‌کند:

ناپایداری توجه محلی (Local-Attention Invariance): امتیازات توجه بالا در یک سند، صرف‌نظر از اسناد اطراف، ثابت می‌مانند.
ثبات توجه متقاطع (Cross-Attention Consistency): توکن‌هایی که توجه داخلی بالایی دارند، معمولاً توجه متقاطع اسناد بعدی را نیز جذب می‌کنند.

به جای ذخیره‌سازی تنسورهای عظیم KV (Key-Value)، این سیستم تنها دو بردار بیتی فشرده از مکان‌های با توجه بالا را نگه می‌دارد. طبق گزارش پژوهشگران، این تغییر باعث می‌شود ردپای ذخیره‌سازی تا ۲۴ هزار برابر کوچک‌تر شود. در مرحله پیش‌تولید، سیستم تنها برای مکان‌های علامت‌گذاری شده محاسبات را انجام می‌دهد و دقت خروجی را در محدوده ۱٪ نسبت به محاسبات کامل حفظ می‌کند.

این چرخش راهبردی، تمرکز صنعت را از «کش کردن داده‌های خام» به «اندیس‌گذاری متادیتای توجه» منتقل می‌کند. SIFT ثابت کرد که اندیس‌های دقیق برای پیش‌تولید با دقت بالا کافی هستند و نیاز به پهنای باند بسیار بالای I/O دیسک در معماری‌های RAG را به چالش می‌کشد.

گام بعدی شما

بررسی ادغام تکنیک‌های اندیس‌گذاری بردار بیتی در لوله‌های پیش‌پردازش پایگاه‌های داده برداری.
تحلیل نرخ خطا در محیط‌های عملیاتی با حجم داده‌های بسیار بالا برای اعتبارسنجی ادعای دقت ۱٪.
ارزیابی کاهش هزینه استنتاج (Inference) در مدل‌هایی با پنجره متنی بسیار گسترده.

اما این بهینه‌سازی تنها بخشی از پازل است؛ تأثیر مدل‌های استدلالی بر کاهش نیاز به RAG را در گزارش بعدی بررسی می‌کنیم.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ناپایداری توجه محلی (Local-Attention Invariance): امتیازات توجه بالا در یک سند، صرف‌نظر از اسناد اطراف، ثابت می‌مانند.
ثبات توجه متقاطع (Cross-Attention Consistency): توکن‌هایی که توجه داخلی بالایی دارند، معمولاً توجه متقاطع اسناد بعدی را نیز جذب می‌کنند.

گام بعدی شما

بررسی ادغام تکنیک‌های اندیس‌گذاری بردار بیتی در لوله‌های پیش‌پردازش پایگاه‌های داده برداری.
تحلیل نرخ خطا در محیط‌های عملیاتی با حجم داده‌های بسیار بالا برای اعتبارسنجی ادعای دقت ۱٪.
ارزیابی کاهش هزینه استنتاج (Inference) در مدل‌هایی با پنجره متنی بسیار گسترده.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه SIFT با جایگزینی تنسورهای KV سرعت پیش‌تولید RAG را ۱.۷۱ برابر کرد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه SIFT با جایگزینی تنسورهای KV سرعت پیش‌تولید RAG را ۱.۷۱ برابر کرد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه SIFT با جایگزینی تنسورهای KV سرعت پیش‌تولید RAG را ۱.۷۱ برابر کرد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه SIFT با جایگزینی تنسورهای KV سرعت پیش‌تولید RAG را ۱.۷۱ برابر کرد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران