باید بدانید که اتوماسیون تجاری در یک بنبست قرار گرفته است. تصور کنید سیستمی که قرار است جایگزین نیروی انسانی شود، در ۳۰ درصد از موارد پیچیده، بهسادگی شکست میخورد و راه بازگشتی نمییابد.
طبق گزارش arxiv.org در ۱۲ مه ۲۰۲۶، برترین عاملهای هوش مصنوعی (AI Agents) در مواجهه با محیطهای متداخل و پیچیده، نرخ موفقیت ۶۰ درصدی را تجربه میکنند. این شکاف عملکردی نشان میدهد که مدلها در «مایل آخر» اتوماسیون، یعنی جایی که ابزارها به جای APIهای ایزوله، در محیطهای نویزی و وابسته به وضعیت قرار دارند، شکست میخورند.
همانطور که در تحلیلهای پیشین ما دربارهی توهمات مدلهای زبانی اشاره کردیم، معیارهای ارزیابی فعلی اغلب سیگنالهای کاذب میفرستند. دادههای جدید نشان میدهد که اکثر بنچمارکها، وابستگیهای وضعیتی (Stateful Dependencies) و شکستهای غیرقابلپیشبینی در نرمافزارهای واقعی را نادیده میگیرند.
پژوهشگران برای سنجش دقیقتر، بنچمارک ComplexMCP را معرفی کردند که بر پایه پروتکل کانتکست مدل (Model Context Protocol - MCP) طراحی شده است. جزئیات این ارزیابی عبارت است از:
- بررسی بیش از ۳۰۰ ابزار در ۷ محیط ایزوله (Sandbox) مختلف (از سیستمهای مالی تا مجموعههای اداری).
- نرخ موفقیت انسانها: ۹۰ درصد.
- نرخ موفقیت برترین مدلهای زبانی: حداکثر ۶۰ درصد.
به نقل از نویسندگان این پژوهش، سه گلوگاه اصلی باعث این افت عملکرد شده است:
- اشباع بازیابی ابزار: با گسترش فضای عملیات، مدل در انتخاب ابزار درست دچار سردرگمی میشود.
- اعتمادبهنفس کاذب: عاملها بدون تأیید وضعیت محیط، مراحل ضروری را نادیده میگیرند.
- شکست استراتژیک: تمایل مدل به توجیه شکست به جای تلاش برای بازیابی و اصلاح مسیر.
برای جامعهی فنی، این نتایج معنای یک چرخش راهبردی دارد: معیار موفقیت از «تسلط بر API» به «تابآوری» (Resilience) تغییر میکند. این یعنی افزایش پنجره متنی (Context Window) یا بهبود تولید بازیابیافزا (RAG) به تنهایی مشکل جریانهای کاری متداخل را حل نمیکند.
گام بعدی شما
- بررسی نحوه ادغام پروتکل MCP در عاملهای تولیدی برای کاهش نرخ شکست.
- تمرکز بر طراحی مکانیزمهای «تأیید وضعیت» (State Verification) در گردش کارهای عاملمحور.
- آزمایش مدلها در محیطهای شبیهسازیشدهای که دارای نویز محیطی هستند.
اما تأثیر این محدودیتها بر سختافزارهای نسل بعد چیست؟ به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو