تصور کنید عاملی داشته باشید که بدون نیاز به ابرکامپیوتر، پیچیدهترین بازیهای اطلاعات-پنهان را تسخیر کند. اگر هنوز فکر میکنید رشد نمایی سیاستها در مدلهای تصمیمگیر یک بنبست مطلق است، باید بدانید که قواعد بازی تغییر کرده است.
به نقل از مقالهای که در ۷ می ۲۰۲۶ در arxiv.org منتشر شد، آنوای شاه (Anvay Shah) ثابت کرد که الگوریتمهای شناختهشدهی Bandit — بهویژه LUCB (Lower Upper Confidence Bound) و UCB (Upper Confidence Bound) — را میتوان بهطور مؤثر در مسائل تصمیمگیری مارکوف درختی (Tree Markov Decision Problems یا T-MDPs) به کار گرفت.
طبق مستندات این پژوهش، T-MDPها مسائلی با افق محدود هستند که در آنها هر وضعیت تنها از طریق یک مسیر مشخص از حالت آغازین قابل دسترسی است. مشکل اصلی اینجاست که تعداد سیاستها نسبت به تعداد وضعیتها بهصورت نمایی رشد میکند؛ مانعی که یادگیری آنلاین را در محیطهای پیچیده عملاً غیرممکن میکرد.
نوآوری شاه در طراحی «کرانهای اطمینان مشترک» نهفته است. به جای ردیابی مستقل هر سیاست، الگوریتم دادهها را میان سیاستهای مختلف به اشتراک میگذارد. این چرخش راهبردی باعث میشود حافظه و محاسبات هر گام در سطح چندجملهای (Polynomial) باقی بماند و دیوار نمایی را دور بزند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای محاسباتی مدلهای استدلالی اشاره کردیم، بهینهسازی مصرف حافظه کلید دستیابی به هوش مصنوعی عاملمحور در مقیاس بزرگ است. این متد جدید در هر دو رژیم PAC (Probably Approximately Correct) و کاهش پشیمانی (Regret-minimisation) عمل میکند.
ویژگیهای کلیدی این رویکرد عبارتند از:
- کاهش ابعاد مسئله از فضای سیاستها به فضای وضعیتها
- استفاده از «جمله شکاف» (Gap term) در وضعیتهای پایانی به جای جمعبندی تکتک سیاستها
- عملکرد برتر در بازیهای استراتژیک با اطلاعات ناقص
بر اساس بررسی نتایج تجربی، این الگوریتمها در مجموعهای از بازیهای اطلاعات-پنهان، بهطور مداوم از جایگزینهای موجود پیشی گرفتهاند. این یعنی عامل (Agent) میتواند با دقت بسیار بیشتری در درختهای تصمیمگیری حرکت کند.
اما این تنها بخشی از معماست؛ تأثیر این رویکرد بر معماریهای جدید مدلهای زبانی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- مقاله کامل آنوای شاه در arxiv.org را برای درک ریاضیات کرانهای مشترک مطالعه کنید.
- اگر روی سیستمهای تصمیمگیر کار میکنید، پیادهسازی LUCB را جایگزین روشهای جستجوی جامع کنید.
- منتظر بهروزرسانیهای این متد برای مواجهه با رقبای غیرایستا (Non-stationary) باشید.




گفتگو