یادگیری تقویتی مبتنی بر نقد به رویکردی قدرتمند برای آموزش عاملان مبتنی بر مدلهای زبانی بزرگ تبدیل شده است که پاداشهای پراکنده نتیجهای را با بازخورد زبان طبیعی ترکیب میکند. با این حال، روشهای موجود به مدلهای ناقد ایستا یا آفلاین متکی هستند که نمیتوانند با تکامل سیاست سازگار شوند. در یادگیری تقویتی آنلاین، الگوهای خطای عامل در طول زمان تغییر میکنند و باعث میشوند نقدهای ثابت از رده خارج شوند و بازخوردهایی بیارزش ارائه دهند.
پژوهشگران چارچوب اکو (ECHO) را معرفی کردهاند که سیاست و ناقد را از طریق یک حلقه همتکاملی همزمان بهینهسازی میکند. این سیستم از مکانیزم گسترش آبشاری استفاده میکند که در آن ناقد تشخیصهای متعددی برای یک مسیر اولیه تولید میکند، سپس پالایش سیاست امکان تخمین مزیت ساختاریافته گروهی را فراهم میسازد.
یکی از نوآوریهای کلیدی به سطوح یادگیری از طریق تابع شکلدهی بهره آگاه از اشباع میپردازد. این روش ناقد را برای ایجاد بهبودهای تدریجی در مسیرهای با عملکرد بالا پاداش میدهد و از راکد شدن آموزش جلوگیری میکند. با بهکارگیری بهروزرسانیهای دوتایی GRPO، اکو تضمین میکند که بازخورد ناقد با سیاست در حال تکامل همگام بماند.
نتایج تجربی نشان میدهد اکو به پویایی آموزش پایدارتر و نرخ موفقیت بالاتر در وظایف افقبلند در محیطهای دنیای باز دست مییابد. رویکرد همتکاملی از تخریب کیفیت بازخورد که روشهای سنتی ناقد ایستا را آزار میدهد جلوگیری میکند و امکان کسب مهارت مؤثرتر را در دورههای آموزشی طولانی فراهم میسازد.
این پژوهش گامی مهم به سوی سیستمهای نقد تطبیقی است که در کنار عاملانی که هدایت میکنند رشد مییابند و محدودیتی بنیادین در خط لولههای یادگیری تقویتی فعلی برای حوزههای پیچیده و باز را برطرف میکنند.

گفتگو