عبور از دیوار نمایی؛ متد جدید آنوای شاه برای تسخیر بازی‌های پیچیده

تصور کنید عاملی داشته باشید که بدون نیاز به ابرکامپیوتر، پیچیده‌ترین بازی‌های اطلاعات-پنهان را تسخیر کند. اگر هنوز فکر می‌کنید رشد نمایی سیاست‌ها در مدل‌های تصمیم‌گیر یک بن‌بست مطلق است، باید بدانید که قواعد بازی تغییر کرده است.

به نقل از مقاله‌ای که در ۷ می ۲۰۲۶ در arxiv.org منتشر شد، آنوای شاه (Anvay Shah) ثابت کرد که الگوریتم‌های شناخته‌شده‌ی Bandit — به‌ویژه LUCB (Lower Upper Confidence Bound) و UCB (Upper Confidence Bound) — را می‌توان به‌طور مؤثر در مسائل تصمیم‌گیری مارکوف درختی (Tree Markov Decision Problems یا T-MDPs) به کار گرفت.

طبق مستندات این پژوهش، T-MDPها مسائلی با افق محدود هستند که در آن‌ها هر وضعیت تنها از طریق یک مسیر مشخص از حالت آغازین قابل دسترسی است. مشکل اصلی اینجاست که تعداد سیاست‌ها نسبت به تعداد وضعیت‌ها به‌صورت نمایی رشد می‌کند؛ مانعی که یادگیری آنلاین را در محیط‌های پیچیده عملاً غیرممکن می‌کرد.

نوآوری شاه در طراحی «کران‌های اطمینان مشترک» نهفته است. به جای ردیابی مستقل هر سیاست، الگوریتم داده‌ها را میان سیاست‌های مختلف به اشتراک می‌گذارد. این چرخش راهبردی باعث می‌شود حافظه و محاسبات هر گام در سطح چندجمله‌ای (Polynomial) باقی بماند و دیوار نمایی را دور بزند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های محاسباتی مدل‌های استدلالی اشاره کردیم، بهینه‌سازی مصرف حافظه کلید دستیابی به هوش مصنوعی عامل‌محور در مقیاس بزرگ است. این متد جدید در هر دو رژیم PAC (Probably Approximately Correct) و کاهش پشیمانی (Regret-minimisation) عمل می‌کند.

ویژگی‌های کلیدی این رویکرد عبارتند از:

کاهش ابعاد مسئله از فضای سیاست‌ها به فضای وضعیت‌ها
استفاده از «جمله شکاف» (Gap term) در وضعیت‌های پایانی به جای جمع‌بندی تک‌تک سیاست‌ها
عملکرد برتر در بازی‌های استراتژیک با اطلاعات ناقص

بر اساس بررسی نتایج تجربی، این الگوریتم‌ها در مجموعه‌ای از بازی‌های اطلاعات-پنهان، به‌طور مداوم از جایگزین‌های موجود پیشی گرفته‌اند. این یعنی عامل (Agent) می‌تواند با دقت بسیار بیشتری در درخت‌های تصمیم‌گیری حرکت کند.

اما این تنها بخشی از معماست؛ تأثیر این رویکرد بر معماری‌های جدید مدل‌های زبانی را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

مقاله کامل آنوای شاه در arxiv.org را برای درک ریاضیات کران‌های مشترک مطالعه کنید.
اگر روی سیستم‌های تصمیم‌گیر کار می‌کنید، پیاده‌سازی LUCB را جایگزین روش‌های جستجوی جامع کنید.
منتظر به‌روزرسانی‌های این متد برای مواجهه با رقبای غیرایستا (Non-stationary) باشید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ویژگی‌های کلیدی این رویکرد عبارتند از:

کاهش ابعاد مسئله از فضای سیاست‌ها به فضای وضعیت‌ها
استفاده از «جمله شکاف» (Gap term) در وضعیت‌های پایانی به جای جمع‌بندی تک‌تک سیاست‌ها
عملکرد برتر در بازی‌های استراتژیک با اطلاعات ناقص

گام بعدی شما

مقاله کامل آنوای شاه در arxiv.org را برای درک ریاضیات کران‌های مشترک مطالعه کنید.
اگر روی سیستم‌های تصمیم‌گیر کار می‌کنید، پیاده‌سازی LUCB را جایگزین روش‌های جستجوی جامع کنید.
منتظر به‌روزرسانی‌های این متد برای مواجهه با رقبای غیرایستا (Non-stationary) باشید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عبور از دیوار نمایی؛ متد جدید آنوای شاه برای تسخیر بازی‌های پیچیده

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عبور از دیوار نمایی؛ متد جدید آنوای شاه برای تسخیر بازی‌های پیچیده

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عبور از دیوار نمایی؛ متد جدید آنوای شاه برای تسخیر بازی‌های پیچیده

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عبور از دیوار نمایی؛ متد جدید آنوای شاه برای تسخیر بازی‌های پیچیده

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران