تصور کنید مدلی با تنها ۷ میلیارد پارامتر بتواند غولهایی مثل GPT-5.5 و Claude Sonnet را در حل مسائل پیچیده و بلندمدت شکست دهد. اگر هنوز تصور میکنید برای رسیدن به استدلال پیشرفته، تنها راه افزایش اندازه مدل است، باید نگاهتان را به معماری برنامهریزی تغییر دهید.
این موفقیت از طریق تغییر رویکرد به «عمق تعهد» (Commitment Depth) حاصل شده است؛ یعنی تعداد اقداماتی که یک عامل (Agent) پیش از مشاهده مجدد محیط و بازطراحی برنامه خود انجام میدهد. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای مدلهای استدلالی اشاره کردیم، توازن میان هزینهی بازطراحی و خطاهای انباشته شده، همواره نقطهی ضعف مدلهای زبانی بزرگ بوده است.
به نقل از مقالهای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران سیاستی بومی در مدل طراحی کردهاند که بهطور همزمان «اقدام» و «مدتزمان اجرای آن» را پیشبینی میکند. این مدل در محیطهای پیچیدهای مانند بازی Sokoban یا پازلهای لغزان مورد آزمایش قرار گرفت و نتایج خیرهکنندهای بهدست آورد:
- افزایش ۱۲.۵ درصدی در نرخ موفقیت در حل مسائل نسبت به مدلهای با عمق ثابت.
- کاهش تقریبی ۲۵ درصدی در تعداد اقدامات اولیه در هر اپیزود.
- شکست کامل مدلهای وزنهای باز (Open Weights) دیگر در حالت Zero-shot با نرخ موفقیت ۰ درصدی.
بر اساس مستندات این پژوهش، این نتیجه فرضیه «مقیاسبندی» (Scaling) به عنوان تنها مسیر رسیدن به استدلال بلندمدت را به چالش میکشد. در واقع، بهینهسازی انتزاع زمانی — یا به زبان ساده، آموزش مدل برای اینکه بداند «چه مدت به یک تصمیم پایبند بماند» — میتواند بر تعداد پارامترها غلبه کند. این یک چرخش به سمت سیاستهای شرطی است که فرکانس استدلال خود را با پیچیدگی لحظهای محیط تطبیق میدهند.
گام بعدی شما
- بررسی کاربرد «عمق تعهد یادگیرای» در سیستمهای کنترل رباتیک برای کاهش خطاهای Open-loop.
- تحلیل اثر این متد بر کاهش هزینههای استنتاج (Inference) در مدلهای کوچک.
- رصد احتمال ادغام این سیاست در نسخههای آینده مدلهای استدلالی متنباز.
اما تأثیر این رویکرد بر کاهش هزینههای استنتاج در مقیاس صنعتی، موضوعی است که در گزارش بعدی به آن خواهیم پرداخت.




گفتگو