باید با این باور کنار بیایید که برای دستیابی به دقت بالا در جستوجوی پیچیده، حتماً به مدلهای غولپیکر نیاز دارید. اکنون یک مدل ۱.۷ میلیارد پارامتری میتواند در عملکرد جستوجو، مدلهایی را که چهار برابر بزرگتر از او هستند، به چالش بکشد.
این جهش در کارایی از یک تغییر بنیادی در نحوه برخورد یادگیری تقویتشونده (Reinforcement Learning) با پرسوجوهای «بسیار ساده» و «بسیار دشوار» ناشی میشود. در واقع، دادههایی که امروز سیگنالی برای یادگیری مدل ندارند، ممکن است با تکامل مدل، به حیاتیترین دادههای آموزشی تبدیل شوند.
به نقل از گزارش arxiv.org که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، آموزش عاملهای (Agents) جستوجو در مدلهای زبانی معمولاً بر پاداشهای نتیجهمحور (مانند الگوریتمهای GRPO) متکی است. در این حالت، موفقیت یا شکست مطلق منجر به ایجاد «واریانس صفر» و هدررفت توان محاسباتی میشود. همانطور که در تحلیل قبلی ما دربارهی مدلهای استدلالی اشاره کردیم، صنعت همواره برای حفظ کارایی آموزش در حین تغییر سیاستها (Policies) دستوپای میزد و اکثر چارچوبها، گروههای بدون واریانس را به عنوان «زباله استاتیک» دور میریختند.
طبق گزارش این مقاله، تکنیک بازیافت پرسوجو (Query Recycling) این گروههای بدون واریانس را به یک استخر تغییرپذیر بازمیگرداند تا در آینده دوباره نمونهبرداری شوند. این رویکرد باعث میشود توزیع آموزشی همگام با سیاست مدل تکامل یابد. دستاوردهای فنی این روش عبارتند از:
- دستیابی مدل ۱.۷ میلیاردی به میانگین دقت ۶۶.۰ در آزمون Pass@1 در هفت بنچمارک QA چندمرحلهای.
- برابری یا پیشی گرفتن از مدلهای ۷ میلیارد پارامتری که با نظارتِ مبتنی بر بنچمارک آموزش دیدهاند.
- تامین حدود ۷۵٪ از دستههای موثر (Effective Batch) توسط پرسوجوهای بازیافتشده در پایان دوره آموزش.
این یافته، این فرض رایج را که دادههای «بیش از حد ساده» یا «بیش از حد سخت» باید کاملاً فیلتر شوند، به چالش میکشد. با سیال نگه داشتن توزیع آموزشی، پژوهشگران عملاً سقف عملکرد در جستوجوی عاملمحور (Agentic) را از مقیاس مدل جدا کردهاند. این یعنی کارایی داده در یادگیری تقویتشونده میتواند سد سختافزاری برای استقرار عاملهای جستوجوی سطح بالا را بهشدت کاهش دهد.
گام بعدی شما
- بررسی امکان ادغام مکانیسم بازیافت در خطلولههای RLHF برای کاهش هزینه محاسبات استنتاج.
- تحلیل اثر این روش بر مدلهای زبانی کوچک (SLM) در کاربردهای تخصصی
- دنبال کردن بهروزرسانیهای احتمالی در کتابخانههای آموزش RL برای پیادهسازی این استخر داده متغیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اینکه چگونه این مدلها روی سختافزارهای لبه اجرا میشوند، تحلیل ما دربارهی تراشههای نسل جدید را بخوانید.



گفتگو