پژوهش تازهای از یینگ شیه (Ying Xie) بررسی میکند که آیا قابلیتهای خودنظارتی مانند فراشناخت (metacognition) و خود-پیشبینی (self-prediction) واقعاً به عوامل یادگیری تقویتی (reinforcement learning agents) کمک میکنند یا خیر.
این مطالعه این ویژگیها را در عوامل چندزمانه (multi-timescale agents) زمانپیوسته در محیطهای بقای شکارچی-شکار (predator-prey) و تنظیمات پیچیده دوبعدی آزمود.
آزمونهای اولیه نشان داد سه ماژول خودنظارتی که بهعنوان اجزای کمکی به سلسلهمراتب کورتیکال چندزمانه اضافه شدند، هیچ بهبود آماری معناداری در ۲۰ اجرای تصادفی، محیطهای مختلف، و آموزش تا ۵۰٬۰۰۰ گام ایجاد نکرد.
تحلیلهای تشخیصی علت شکست را آشکار کرد. خروجیهای نظارتی به مقادیر تقریباً ثابتی سقوط کردند؛ تغییر اطمینان کمتر از ۰.۰۰۶ و تخصیص توجه کمتر از ۰.۰۱۱ بود. مکانیسم مدتزمان ذهنی عامل تخفیف را کمتر از ۰.۰۳ درصد تغییر داد. تحلیل حساسیت سیاست تأیید کرد تصمیمات عامل از خروجیهای ماژول تأثیری نگرفت.
{{img:0}}
نقطه عطف زمانی رخ داد که پژوهشگران ماژولها را بهجای جدا نگهداشتن، ساختاراً در مسیر تصمیمگیری یکپارچه کردند. آنها اطمینان را برای دروازهبندی اکتشاف، شگفتی را برای فعالسازی پخش فضای کاری، و پیشبینی مدل خود را بهعنوان ورودی سیاست به کار بردند.
این یکپارچهسازی ساختاری در محیطهای غیرایستا، بهبود متوسط تا بزرگی با اندازه اثر کوهن (Cohen's d) ۰.۶۲ در مقایسه با رویکرد الحاقی ایجاد کرد.
با این حال، یکپارچگی ساختاری نتوانست بهطور معناداری از یک پایه بدون خودنظارتی بهتر عمل کند. کنترل با پارامتر منطبق بدون ماژولها عملکرد مشابهی داشت. این نشان میدهد سود ظاهری ممکن است از بهبود آسیب ناشی از نادیدهگرفتهشدن ماژولها باشد، نه از محتوای خودنظارتی.

گفتگو