چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

اگر تصور می‌کنید عامل‌های هوش مصنوعی (AI Agents) آماده‌اند جایگزین کارکنان اداری شوند، داده‌های جدید روایت متفاوتی دارند. واقعیت این است که شکاف عمیقی میان توانایی تولید کد و اجرای واقعی گردش‌های کاری پیچیده در نرم‌افزارهایی مانند اکسل و پاورپوینت وجود دارد.

طبق گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arXiv منتشر شد، مدل‌های پیشرو در آزمون مهارت کامپیوتر ملی چین (NCRE)، تنها به نرخ موفقیت ۶۸.۸ درصدی دست یافتند. این نتایج نشان می‌دهد که «آخرین مایل» اتوماسیون حرفه‌ای، با مهندسی پرامپت ساده قابل حل نیست و ریشه در ضعف‌های بنیادین اجرای دقیق (Fine-grained Execution) دارد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های استدلالی در مدل‌های بازمتن اشاره کردیم، عبور از گلوگاه‌های عملیاتی نیازمند چیزی فراتر از افزایش حجم داده‌ها است. این مطالعه که توسط تیم Tengchao Lv رهبری شده، ۷ مدل پیشرو را در ۲۰۰ تکلیف عملی با استفاده از ۷,۱۱۸ معیار ارزیابی ماشین‌محور مورد سنجش قرار داد:

مدل‌های تک‌مرحله‌ای (Single-turn): حداکثر نمره ۳۶.۶ درصد.
سیستم‌های عامل‌محور (Agentic Systems) با بازخورد اجرایی و اصلاح تکرارشونده: ۶۸.۸ درصد.
نمره مرجع جامعه انسانی: ۹۵.۵ درصد.

به نقل از پژوهشگران این مطالعه، این داده‌ها پارادایم ارزیابی «عامل‌های کدنویس» را تغییر می‌دهد؛ به این معنا که معیار موفقیت دیگر تولید یک اسکریپت صحیح نیست، بلکه تعامل قابل‌اعتماد با رابط‌های نرم‌افزاری (APIs) در محیط‌های چندوجهی است. معماری‌های فعلی در مدیریت برنامه‌ریزی‌های بلندمدت و پیکربندی دقیق پارامترها در نرم‌افزارهای اداری شکست می‌خورند.

گام بعدی شما

رصد ظهور حلقه‌های بازخورد (Feedback Loops) تنگ‌تر میان مدل‌ها و APIهای نرم‌افزاری.
بررسی معماری‌های استدلالی تخصصی که به‌جای تولید متن، بر روی «مدیریت وضعیت» (State Management) تمرکز دارند.
ارزیابی ابزارهای اتوماسیون فعلی بر اساس معیارهای خروجی‌محور (Output-driven) به‌جای معیارهای زبانی.

اما این نقص در اجرا تنها بخشی از معماست؛ اثر این محدودیت‌ها بر هزینه‌های استنتاج در مقیاس سازمانی، موضوع تحلیل بعدی ما در مورد مدل‌های استدلالی خواهد بود.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مدل‌های تک‌مرحله‌ای (Single-turn): حداکثر نمره ۳۶.۶ درصد.
سیستم‌های عامل‌محور (Agentic Systems) با بازخورد اجرایی و اصلاح تکرارشونده: ۶۸.۸ درصد.
نمره مرجع جامعه انسانی: ۹۵.۵ درصد.

گام بعدی شما

رصد ظهور حلقه‌های بازخورد (Feedback Loops) تنگ‌تر میان مدل‌ها و APIهای نرم‌افزاری.
بررسی معماری‌های استدلالی تخصصی که به‌جای تولید متن، بر روی «مدیریت وضعیت» (State Management) تمرکز دارند.
ارزیابی ابزارهای اتوماسیون فعلی بر اساس معیارهای خروجی‌محور (Output-driven) به‌جای معیارهای زبانی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران