نقدهای تکاملی، مشکل بازخوردهای راکد را در یادگیری عاملان هوشمند حل می‌کنند

یادگیری تقویتی مبتنی بر نقد به رویکردی قدرتمند برای آموزش عاملان مبتنی بر مدل‌های زبانی بزرگ تبدیل شده است که پاداش‌های پراکنده نتیجه‌ای را با بازخورد زبان طبیعی ترکیب می‌کند. با این حال، روش‌های موجود به مدل‌های ناقد ایستا یا آفلاین متکی هستند که نمی‌توانند با تکامل سیاست سازگار شوند. در یادگیری تقویتی آنلاین، الگوهای خطای عامل در طول زمان تغییر می‌کنند و باعث می‌شوند نقدهای ثابت از رده خارج شوند و بازخوردهایی بی‌ارزش ارائه دهند.

پژوهشگران چارچوب اکو (ECHO) را معرفی کرده‌اند که سیاست و ناقد را از طریق یک حلقه هم‌تکاملی همزمان بهینه‌سازی می‌کند. این سیستم از مکانیزم گسترش آبشاری استفاده می‌کند که در آن ناقد تشخیص‌های متعددی برای یک مسیر اولیه تولید می‌کند، سپس پالایش سیاست امکان تخمین مزیت ساختاریافته گروهی را فراهم می‌سازد.

یکی از نوآوری‌های کلیدی به سطوح یادگیری از طریق تابع شکل‌دهی بهره آگاه از اشباع می‌پردازد. این روش ناقد را برای ایجاد بهبودهای تدریجی در مسیرهای با عملکرد بالا پاداش می‌دهد و از راکد شدن آموزش جلوگیری می‌کند. با به‌کارگیری به‌روزرسانی‌های دوتایی GRPO، اکو تضمین می‌کند که بازخورد ناقد با سیاست در حال تکامل همگام بماند.

نتایج تجربی نشان می‌دهد اکو به پویایی آموزش پایدارتر و نرخ موفقیت بالاتر در وظایف افق‌بلند در محیط‌های دنیای باز دست می‌یابد. رویکرد هم‌تکاملی از تخریب کیفیت بازخورد که روش‌های سنتی ناقد ایستا را آزار می‌دهد جلوگیری می‌کند و امکان کسب مهارت مؤثرتر را در دوره‌های آموزشی طولانی فراهم می‌سازد.

این پژوهش گامی مهم به سوی سیستم‌های نقد تطبیقی است که در کنار عاملانی که هدایت می‌کنند رشد می‌یابند و محدودیتی بنیادین در خط لوله‌های یادگیری تقویتی فعلی برای حوزه‌های پیچیده و باز را برطرف می‌کنند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نقدهای تکاملی، مشکل بازخوردهای راکد را در یادگیری عاملان هوشمند حل می‌کنند

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقدهای تکاملی، مشکل بازخوردهای راکد را در یادگیری عاملان هوشمند حل می‌کنند

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقدهای تکاملی، مشکل بازخوردهای راکد را در یادگیری عاملان هوشمند حل می‌کنند

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقدهای تکاملی، مشکل بازخوردهای راکد را در یادگیری عاملان هوشمند حل می‌کنند

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران