اگر یک عامل (Agent) بتواند استراتژی تجاری بینقصی طراحی کند اما حتی یک معامله را اجرا نکند، آیا واقعاً دارای «عاملیت» است؟ این پرسش، هستهی مرکزی یافتههای بنچمارک جدید CoffeeBench است که در ۱۶ ژوئن ۲۰۲۶ منتشر شد. در کنار بررسی قابلیتهای استدلالی، بهینهسازی زیرساختهای عملیاتی برای این مدلها نیز اهمیت دارد، بهویژه در مواردی که ابزارهای جدید اجرای عاملهای محلی را بدون نیاز به سختافزارهای صنعتی ممکن ساختهاند.
بر اساس این گزارش، مدل Claude Haiku 4.5 دچار پدیدهای به نام «S-drift» یا رانش-بیکار شد؛ وضعیتی که در آن مدل برنامههایی کاملاً منطقی مینوشت، اما در عمل هیچ گامی برای پیشبرد آنها برنداشت.
طبق مستندات منتشرشده در arxiv.org، این بنچمارک یک اقتصاد متنوع را شبیهسازی میکند که در آن دو کشاورز، دو رستهکننده و دو خردهفروش در یک بازه ۹۰ روزه فعالیت میکنند:
- مدل مورد آزمایش، کنترل یک رستهکننده قهوه را بر عهده دارد تا درآمد خالص خود را بیشینه کند.
- تمامی مدلهای وزنهای باز (Open Weights) و تجاری توانستند از خطبارهای غیرفعال پیشی بگیرند.
- correilate قوی میان عملکرد بالا و نرخ ارتباطات فعال در مدلها مشاهده شد.
- شکست Claude Haiku 4.5 در این نقطه بود که تحلیلهای درستی ارائه میداد اما در لایهی اجرایی متوقف میشد.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای استدلال در مدلهای زبانی اشاره کردیم، فاصله میان «دانستن» و «انجام دادن» در معماریهای فعلی همچنان یک حفرهی عمیق است.
ارزیابی عاملها در محیطهای ایستا دیگر کافی نیست. این تحقیق با عبور از روشهای تجزیه جبری (که در Tensor-Coord برای رفع تداخل برنامهریزی استفاده میشد)، معیار موفقیت را از «حل تداخل» به «بقا در اقتصاد» تغییر داده است. این رویکرد ثابت میکند که استنتاج (Inference) منطقی، لزوماً به معنای پایداری عملیاتی در محیطهای پویا نیست.
گام بعدی شما
- بررسی مسیرهای حرکتی (Trajectories) و کدهای منتشرشده توسط پژوهشگران برای تحلیل دقیق محرکهای رفتار Idle-drift.
- دنبال کردن مقالات آتی که تلاش میکنند این شکاف اجرایی را با تغییر توابع پاداش (Reward Functions) یا مکانیسمهای بستهشدن حلقه (Loop-closing) ترمیم کنند.
ama این شکست در اجرا، تنها بخشی از معماست؛ برای درک اینکه چرا مدلهای استدلالی در محیطهای پویا لنگ میزنند، تحلیل ما دربارهی محدودیتهای پنجره متنی را بخوانید.




گفتگو