پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

اگر یک عامل (Agent) بتواند استراتژی تجاری بی‌نقصی طراحی کند اما حتی یک معامله را اجرا نکند، آیا واقعاً دارای «عاملیت» است؟ این پرسش، هسته‌ی مرکزی یافته‌های بنچمارک جدید CoffeeBench است که در ۱۶ ژوئن ۲۰۲۶ منتشر شد. در کنار بررسی قابلیت‌های استدلالی، بهینه‌سازی زیرساخت‌های عملیاتی برای این مدل‌ها نیز اهمیت دارد، به‌ویژه در مواردی که ابزارهای جدید اجرای عامل‌های محلی را بدون نیاز به سخت‌افزارهای صنعتی ممکن ساخته‌اند.

بر اساس این گزارش، مدل Claude Haiku 4.5 دچار پدیده‌ای به نام «S-drift» یا رانش-بیکار شد؛ وضعیتی که در آن مدل برنامه‌هایی کاملاً منطقی می‌نوشت، اما در عمل هیچ گامی برای پیشبرد آن‌ها برنداشت.

طبق مستندات منتشرشده در arxiv.org، این بنچمارک یک اقتصاد متنوع را شبیه‌سازی می‌کند که در آن دو کشاورز، دو رسته‌کننده و دو خرده‌فروش در یک بازه ۹۰ روزه فعالیت می‌کنند:

مدل مورد آزمایش، کنترل یک رسته‌کننده قهوه را بر عهده دارد تا درآمد خالص خود را بیشینه کند.
تمامی مدل‌های وزن‌های باز (Open Weights) و تجاری توانستند از خط‌بارهای غیرفعال پیشی بگیرند.
correilate قوی میان عملکرد بالا و نرخ ارتباطات فعال در مدل‌ها مشاهده شد.
شکست Claude Haiku 4.5 در این نقطه بود که تحلیل‌های درستی ارائه می‌داد اما در لایه‌ی اجرایی متوقف می‌شد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های استدلال در مدل‌های زبانی اشاره کردیم، فاصله میان «دانستن» و «انجام دادن» در معماری‌های فعلی همچنان یک حفره‌ی عمیق است.

ارزیابی عامل‌ها در محیط‌های ایستا دیگر کافی نیست. این تحقیق با عبور از روش‌های تجزیه جبری (که در Tensor-Coord برای رفع تداخل برنامه‌ریزی استفاده می‌شد)، معیار موفقیت را از «حل تداخل» به «بقا در اقتصاد» تغییر داده است. این رویکرد ثابت می‌کند که استنتاج (Inference) منطقی، لزوماً به معنای پایداری عملیاتی در محیط‌های پویا نیست.

گام بعدی شما

بررسی مسیرهای حرکتی (Trajectories) و کدهای منتشرشده توسط پژوهشگران برای تحلیل دقیق محرک‌های رفتار Idle-drift.
دنبال کردن مقالات آتی که تلاش می‌کنند این شکاف اجرایی را با تغییر توابع پاداش (Reward Functions) یا مکانیسم‌های بسته‌شدن حلقه (Loop-closing) ترمیم کنند.

ama این شکست در اجرا، تنها بخشی از معماست؛ برای درک اینکه چرا مدل‌های استدلالی در محیط‌های پویا لنگ می‌زنند، تحلیل ما درباره‌ی محدودیت‌های پنجره متنی را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مدل مورد آزمایش، کنترل یک رسته‌کننده قهوه را بر عهده دارد تا درآمد خالص خود را بیشینه کند.
تمامی مدل‌های وزن‌های باز (Open Weights) و تجاری توانستند از خط‌بارهای غیرفعال پیشی بگیرند.
correilate قوی میان عملکرد بالا و نرخ ارتباطات فعال در مدل‌ها مشاهده شد.
شکست Claude Haiku 4.5 در این نقطه بود که تحلیل‌های درستی ارائه می‌داد اما در لایه‌ی اجرایی متوقف می‌شد.

گام بعدی شما

بررسی مسیرهای حرکتی (Trajectories) و کدهای منتشرشده توسط پژوهشگران برای تحلیل دقیق محرک‌های رفتار Idle-drift.
دنبال کردن مقالات آتی که تلاش می‌کنند این شکاف اجرایی را با تغییر توابع پاداش (Reward Functions) یا مکانیسم‌های بسته‌شدن حلقه (Loop-closing) ترمیم کنند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران