باید بدانید که تعریف رایج از «حافظه» در عاملهای هوشمند، یک اشتباه بنیادین است. اگر تصور میکنید هدف از مدیریت وضعیت در یک عامل، پیشبینی دقیق آینده است، در واقع هدف اصلی یعنی «بهینهسازی پاداش» را نادیده گرفتهاید.
در محیطهای پیچیده، ما با فرآیندهای تصمیمگیری غیرمارکوفی (Non-Markovian Decision Processes - NMDPs) روبرو هستیم؛ جایی که تصمیم درست، نه تنها به وضعیت فعلی، بلکه به کل تاریخچهی تعاملات وابسته است. همانطور که در تحلیلهای پیشین ما دربارهی معماریهای حافظهمحور اشاره کردیم، اکثر مدلهای فعلی سعی میکنند با پیشبینی مشاهدات آینده، یک نمایش فشرده از وضعیت بسازند. اما طبق پژوهشی که در ۱۲ مه ۲۰۲۶ توسط Avik Kar منتشر شد، این رویکرد اغلب دادههای بیربط را ذخیره کرده و سیگنالهای حیاتی پاداش را از دست میدهد.
برای حل این مشکل، این مقاله سیاستهای وضعیت مارکوف عامل (Agent State-Markov - ASM) را معرفی میکند. در این رویکرد، دینامیک وضعیت و سیاست کنترل در یک هدف بهینهسازی واحد ادغام شدهاند. نتیجهی این معماری، الگوریتم گرادیان سیاست مارکوف وضعیت عامل (Agent State-Markov Policy Gradient - ASMPG) است که از یک ساختار بازگشتی برای بهینهسازی کارآمد استفاده میکند.
بر اساس مستندات این پژوهش، دستاوردهای فنی کلیدی عبارتند از:
- ارائه یک قضیهی جدید برای گرادیان سیاست که نتایج کلاسیک مارکوفی را به NMDPهای اپیزودیک و با افق نامحدود تعمیم میدهد.
- تضمینهای ریاضی برای همگرایی در زمان محدود و همگرایی تقریباً قطعی.
- شواهد تجربی که نشان میدهد ASMPG از تمامی مدلهای پایه (Baselines) که بر اهداف پیشبینانه تکیه دارند، پیشی میگیرد.
این تحول، این فرض قدیمی را که نمایش وضعیت باید یک وظیفهی کمکی و مجزا (Decoupled) باشد، میشکند. با پیوند مستقیم دینامیک وضعیت به سیگنال پاداش، عامل یاد میگیرد هر بخشی از تاریخچه را که به هدف نهایی کمک نمیکند، دور بریزد. این یعنی رسیدن به عاملهایی با حافظهی بهینه که بدون نیاز به پنجرههای متنی (Context Window) عظیم، در محیطهای نیمهمشاهدهپذیر عمل میکنند.
گام بعدی شما
- بررسی جایگزینی مکانیسمهای حافظهی مبتنی بر توجه (Attention) با دینامیکهای بازگشتی ASMPG در عاملهای مقیاسبزرگ.
- رصد پیادهسازی این گرادیانها در تسکهای واقعی رباتیک برای سنجش کارایی در دنیای فیزیکی.
- تحلیل اثر کاهش هزینهی محاسباتی در استنتاج مدلهای حافظهمحور.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این بهینهسازی بر مصرف GPUها را در گزارش بعدی بررسی خواهیم کرد.




گفتگو