بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

باید با این باور کنار بیایید که برای دست‌یابی به دقت بالا در جست‌وجوی پیچیده، حتماً به مدل‌های غول‌پیکر نیاز دارید. اکنون یک مدل ۱.۷ میلیارد پارامتری می‌تواند در عملکرد جست‌وجو، مدل‌هایی را که چهار برابر بزرگ‌تر از او هستند، به چالش بکشد.

این جهش در کارایی از یک تغییر بنیادی در نحوه برخورد یادگیری تقویت‌شونده (Reinforcement Learning) با پرس‌وجوهای «بسیار ساده» و «بسیار دشوار» ناشی می‌شود. در واقع، داده‌هایی که امروز سیگنالی برای یادگیری مدل ندارند، ممکن است با تکامل مدل، به حیاتی‌ترین داده‌های آموزشی تبدیل شوند.

به نقل از گزارش arxiv.org که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، آموزش عامل‌های (Agents) جست‌وجو در مدل‌های زبانی معمولاً بر پاداش‌های نتیجه‌محور (مانند الگوریتم‌های GRPO) متکی است. در این حالت، موفقیت یا شکست مطلق منجر به ایجاد «واریانس صفر» و هدررفت توان محاسباتی می‌شود. همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های استدلالی اشاره کردیم، صنعت همواره برای حفظ کارایی آموزش در حین تغییر سیاست‌ها (Policies) دست‌وپای می‌زد و اکثر چارچوب‌ها، گروه‌های بدون واریانس را به عنوان «زباله استاتیک» دور می‌ریختند.

طبق گزارش این مقاله، تکنیک بازیافت پرس‌وجو (Query Recycling) این گروه‌های بدون واریانس را به یک استخر تغییرپذیر بازمی‌گرداند تا در آینده دوباره نمونه‌برداری شوند. این رویکرد باعث می‌شود توزیع آموزشی هم‌گام با سیاست مدل تکامل یابد. دستاوردهای فنی این روش عبارتند از:

دستیابی مدل ۱.۷ میلیاردی به میانگین دقت ۶۶.۰ در آزمون Pass@1 در هفت بنچمارک QA چندمرحله‌ای.
برابری یا پیشی گرفتن از مدل‌های ۷ میلیارد پارامتری که با نظارتِ مبتنی بر بنچمارک آموزش دیده‌اند.
تامین حدود ۷۵٪ از دسته‌های موثر (Effective Batch) توسط پرس‌وجوهای بازیافت‌شده در پایان دوره آموزش.

این یافته، این فرض رایج را که داده‌های «بیش از حد ساده» یا «بیش از حد سخت» باید کاملاً فیلتر شوند، به چالش می‌کشد. با سیال نگه داشتن توزیع آموزشی، پژوهشگران عملاً سقف عملکرد در جست‌وجوی عامل‌محور (Agentic) را از مقیاس مدل جدا کرده‌اند. این یعنی کارایی داده در یادگیری تقویت‌شونده می‌تواند سد سخت‌افزاری برای استقرار عامل‌های جست‌وجوی سطح بالا را به‌شدت کاهش دهد.

گام بعدی شما

بررسی امکان ادغام مکانیسم بازیافت در خط‌لوله‌های RLHF برای کاهش هزینه محاسبات استنتاج.
تحلیل اثر این روش بر مدل‌های زبانی کوچک (SLM) در کاربردهای تخصصی
دنبال کردن به‌روزرسانی‌های احتمالی در کتابخانه‌های آموزش RL برای پیاده‌سازی این استخر داده متغیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ برای درک اینکه چگونه این مدل‌ها روی سخت‌افزارهای لبه اجرا می‌شوند، تحلیل ما درباره‌ی تراشه‌های نسل جدید را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

دستیابی مدل ۱.۷ میلیاردی به میانگین دقت ۶۶.۰ در آزمون Pass@1 در هفت بنچمارک QA چندمرحله‌ای.
برابری یا پیشی گرفتن از مدل‌های ۷ میلیارد پارامتری که با نظارتِ مبتنی بر بنچمارک آموزش دیده‌اند.
تامین حدود ۷۵٪ از دسته‌های موثر (Effective Batch) توسط پرس‌وجوهای بازیافت‌شده در پایان دوره آموزش.

گام بعدی شما

بررسی امکان ادغام مکانیسم بازیافت در خط‌لوله‌های RLHF برای کاهش هزینه محاسبات استنتاج.
تحلیل اثر این روش بر مدل‌های زبانی کوچک (SLM) در کاربردهای تخصصی
دنبال کردن به‌روزرسانی‌های احتمالی در کتابخانه‌های آموزش RL برای پیاده‌سازی این استخر داده متغیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران