چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

باید بدانید که بسیاری از موفقیت‌های گزارش‌شده در بنچمارک‌های عامل‌های هوش مصنوعی (AI Agents)، صرفاً توهمات آماری هستند. طبق گزارشی که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، بسیاری از اجراهای «موفق» این عامل‌ها بر اساس سیگنال‌های سطحی — مانند کلیک بر روی دکمه «ذخیره» — ثبت شده‌اند، بدون اینکه بررسی شود آیا تغییر وضعیت مورد نظر واقعاً رخ داده است یا خیر.

با چرخش صنعت به سمت سیستم‌های عامل‌محور (Agentic)، شکاف میان موفقیت در محیط شبیه‌سازی‌شده و نتیجه در دنیای واقعی به یک نقطه شکست بحرانی تبدیل شده است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های استقرار عامل‌های مستقل اشاره کردیم، ارزیاب‌های فعلی اغلب در ثبت مسیر واقعی اقدامات عامل ناتوان‌اند و این امر منجر به تورم معیارهای عملکرد می‌شود که در برابر بررسی‌های دقیق، فرو می‌پاشند.

برای حل این مشکل، پژوهشگران یک لایه‌ی گزارش شواهد خروجی معرفی کرده‌اند که بدون تغییر در عامل‌ها یا وظایف، با بنچمارک‌های موجود ادغام می‌شود. بر اساس مستندات این پژوهش، این سیستم از طریق سه کارکرد اصلی عمل می‌کند:

تعیین مستندات (Artifact Specification): شناسایی داده‌های ذخیره‌شده‌ای که برای تأیید یک نتیجه ادعایی ضروری هستند.
برچسب‌گذاری شواهد (Evidence Labeling): اعمال یک چک‌لیست قفل‌شده برای دسته‌بندی اجراها در گروه‌های «پذیرش با شاهد»، «رد با شاهد» یا «نامعلوم».
تعیین محدوده امتیاز (Score Bounding): گزارش بازه‌های عدم قطعیت به جای یک نرخ موفقیت کلی و احتمالاً گمراه‌کننده.

این چارچوب در پنج بنچمارک عمومی شامل ANDROIDWORLD، AGENTDOJO، APPWORLD، tau3 bench retail و MINIWOB اعتبارسنجی شده است.

این تحول، میدان ارزیابی را از «امتیازدهی مبتنی بر نتیجه» به «تأیید مبتنی بر شواهد» منتقل می‌کند. برای متخصصان فنی، این بدان معناست که اعداد SOTA (State-of-the-Art) که در حال حاضر در مقالات ذکر می‌شوند، پس از محاسبه درست موارد «نامعلوم»، احتمالاً به‌طور قابل‌توجهی کاهش خواهند یافت. این رویکرد، توسعه‌دهندگان را مجبور می‌کند تا به جای اعتماد به یک خروجی دوتایی (موفق/ناموفق)، بر روی قابلیت اطمینان خودِ مکانیسم تشخیص تمرکز کنند.

گام بعدی شما

ارزیابی‌های داخلی عامل‌های خود را برای شناسایی چک‌های سطحی که ممکن است شکست‌ها را پنهان کنند، بازرسی (Audit) کنید.
منتظر به‌روزرسانی لیدربوردهای بنچمارک‌های ذکرشده برای مشاهده «محدوده‌های شواهد» (Evidence Bounds) باشید.
در طراحی سیستم‌های ارزیابی جدید، لایه‌ی تأیید مستندات را به عنوان یک پیش‌نیاز تعریف کنید.

اما این تغییر در ارزیابی، تنها بخشی از یک چالش بزرگ‌تر است؛ برای درک اینکه چرا مدل‌های استدلالی هنوز در محیط‌های پویا شکست می‌خورند، تحلیل ما درباره‌ی مدل‌های استدلالی (Reasoning Models) را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تعیین مستندات (Artifact Specification): شناسایی داده‌های ذخیره‌شده‌ای که برای تأیید یک نتیجه ادعایی ضروری هستند.
برچسب‌گذاری شواهد (Evidence Labeling): اعمال یک چک‌لیست قفل‌شده برای دسته‌بندی اجراها در گروه‌های «پذیرش با شاهد»، «رد با شاهد» یا «نامعلوم».
تعیین محدوده امتیاز (Score Bounding): گزارش بازه‌های عدم قطعیت به جای یک نرخ موفقیت کلی و احتمالاً گمراه‌کننده.

این چارچوب در پنج بنچمارک عمومی شامل ANDROIDWORLD، AGENTDOJO، APPWORLD، tau3 bench retail و MINIWOB اعتبارسنجی شده است.

گام بعدی شما

ارزیابی‌های داخلی عامل‌های خود را برای شناسایی چک‌های سطحی که ممکن است شکست‌ها را پنهان کنند، بازرسی (Audit) کنید.
منتظر به‌روزرسانی لیدربوردهای بنچمارک‌های ذکرشده برای مشاهده «محدوده‌های شواهد» (Evidence Bounds) باشید.
در طراحی سیستم‌های ارزیابی جدید، لایه‌ی تأیید مستندات را به عنوان یک پیش‌نیاز تعریف کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا موفقیت‌های ادعایی عامل‌های هوش مصنوعی در بنچمارک‌ها اغلب کاذب هستند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران