آیا عاملهای شما واقعاً یاد میگیرند یا فقط بر اساس نسبتهای غلط حدس میزنند؟ اگر هنوز از روشهای سنتی محاسبه پاداش استفاده میکنید، احتمالاً با نتایجی مواجه هستید که در محیطهای واقعی فرو میپاشند.
طبق اعلام ارل شتوسل (Erel Shtossel)، پژوهشگر برجسته، در ۷ مه ۲۰۲۶، راهکاری ریاضی برای حل یکی از قدیمیترین چالشهای یادگیری تقویتشده (Reinforcement Learning) ارائه شد. به نقل از مقاله منتشر شده در arxiv.org، این پژوهش یک اپراتور میانگین هارمونیک اصلاحشده را معرفی میکند که بهطور خاص برای فرآیندهای تصمیمگیری نیمهمارکوف (Semi-Markov Decision Processes - SMDPs) طراحی شده است.
مشکل اینجاست که الگوریتمهای فعلی معمولاً برای تعیین نرخ متوسط پاداش، از نسبت پاداشها به مدتزمانها استفاده میکنند. اما این روش زمانی که پاداشها و زمانها در یک افق نامحدود «غیرایستا» (Non-stationary) باشند، شکست میخورد و منجر به نتایج یادگیری نادرست میشود.
این اپراتور جدید با ایجاد یک چارچوب ریاضی مستحکمتر، تغییرات زیر را ایجاد میکند:
- محاسبه دقیق نرخ پاداش حتی در شرایط غیرایستا.
- امکان ساخت الگوریتمهای یادگیری بدون مدل (Model-free) که به پیشفرضهای توزیع استاتیک متکی نیستند.
- حفظ پایداری در وظایف غیر-اپیزودیک با افق نامحدود.
همانطور که در تحلیلهای پیشین ما دربارهی پایداری مدلهای عاملمحور (Agentic) اشاره کردیم، حذف وابستگی به توزیعهای ثابت، کلید رسیدن به هوش مصنوعی عملیاتی است. اگرچه نویسنده در چکیده مقاله به درصدهای دقیق بهبود اشاره نکرده است، اما اثباتهای تئوریک و نمایشهای تجربی نشان میدهند که میانگین هارمونیک اصلاحشده بهطور قابلتوجهی از الگوریتمهای مبتنی بر نسبت پیشی میگیرد.
این پیشرفت، علاقه متخصصان را دوباره به یادگیری پاداش متوسط بدون تخفیف (Undiscounted Average Reward RL) زنده میکند و مسیر را برای ساخت عامل (Agent)هایی هموار میکند که بدون گم کردن هدف بهینهسازی، با محیطهای در حال تغییر سازگار شوند.
با توجه به اینکه SMDPها برای رباتیک پیچیده و سیستمهای خودمختار بلندمدت حیاتی هستند، صنعت اکنون منتظر است ببیند این اپراتور چگونه پایداری را در محیطهای فیزیکی پیشبینیناپذیر بهبود میبخشد.
اما این تحول ریاضی تنها بخشی از ماجراست؛ تأثیر این رویکرد بر کاهش هزینههای استنتاج (Inference) در مدلهای بزرگ را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مستندات ریاضی اپراتور میانگین هارمونیک در مقاله Arxiv برای پیادهسازی در محیطهای غیرایستا.
- مقایسه عملکرد الگوریتمهای Model-free فعلی خود با رویکرد SMDP اصلاحشده.
- دنبال کردن بنچمارکهای جدید در حوزه رباتیک که از این اپراتور برای پایداری بلندمدت استفاده میکنند.




گفتگو