اگر تصور میکنید عاملهای هوش مصنوعی (AI Agents) آمادهاند جایگزین کارکنان اداری شوند، دادههای جدید روایت متفاوتی دارند. واقعیت این است که شکاف عمیقی میان توانایی تولید کد و اجرای واقعی گردشهای کاری پیچیده در نرمافزارهایی مانند اکسل و پاورپوینت وجود دارد.
طبق گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arXiv منتشر شد، مدلهای پیشرو در آزمون مهارت کامپیوتر ملی چین (NCRE)، تنها به نرخ موفقیت ۶۸.۸ درصدی دست یافتند. این نتایج نشان میدهد که «آخرین مایل» اتوماسیون حرفهای، با مهندسی پرامپت ساده قابل حل نیست و ریشه در ضعفهای بنیادین اجرای دقیق (Fine-grained Execution) دارد.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای استدلالی در مدلهای بازمتن اشاره کردیم، عبور از گلوگاههای عملیاتی نیازمند چیزی فراتر از افزایش حجم دادهها است. این مطالعه که توسط تیم Tengchao Lv رهبری شده، ۷ مدل پیشرو را در ۲۰۰ تکلیف عملی با استفاده از ۷,۱۱۸ معیار ارزیابی ماشینمحور مورد سنجش قرار داد:
- مدلهای تکمرحلهای (Single-turn): حداکثر نمره ۳۶.۶ درصد.
- سیستمهای عاملمحور (Agentic Systems) با بازخورد اجرایی و اصلاح تکرارشونده: ۶۸.۸ درصد.
- نمره مرجع جامعه انسانی: ۹۵.۵ درصد.
به نقل از پژوهشگران این مطالعه، این دادهها پارادایم ارزیابی «عاملهای کدنویس» را تغییر میدهد؛ به این معنا که معیار موفقیت دیگر تولید یک اسکریپت صحیح نیست، بلکه تعامل قابلاعتماد با رابطهای نرمافزاری (APIs) در محیطهای چندوجهی است. معماریهای فعلی در مدیریت برنامهریزیهای بلندمدت و پیکربندی دقیق پارامترها در نرمافزارهای اداری شکست میخورند.
گام بعدی شما
- رصد ظهور حلقههای بازخورد (Feedback Loops) تنگتر میان مدلها و APIهای نرمافزاری.
- بررسی معماریهای استدلالی تخصصی که بهجای تولید متن، بر روی «مدیریت وضعیت» (State Management) تمرکز دارند.
- ارزیابی ابزارهای اتوماسیون فعلی بر اساس معیارهای خروجیمحور (Output-driven) بهجای معیارهای زبانی.
اما این نقص در اجرا تنها بخشی از معماست؛ اثر این محدودیتها بر هزینههای استنتاج در مقیاس سازمانی، موضوع تحلیل بعدی ما در مورد مدلهای استدلالی خواهد بود.



گفتگو