نقطه کور داوران LLM: ۸۰٪ از نقص‌های عامل‌های چندمرحله‌ای نادیده گرفته می‌شوند

اگر برای نظارت بر عملکرد عامل‌های هوش مصنوعی خود به داورهای مدل زبانی تکیه کرده‌اید، احتمالاً گزارش‌های شما با واقعیت فاصله زیادی دارند. باید بدانید که این سیستم‌ها می‌توانند تا ۸۰٪ از نقص‌های ساختاری در تعاملات پیچیده را نادیده بگیرند.

به نقل از پژوهشی که در ۱۰ ژوئن ۲۰۲۶ در وب‌سایت arxiv.org منتشر شد، ابزارهای ارزیابی خودکار در محیط‌های تجاری به‌طور سیستماتیک نسبت به شکست‌های حیاتی در ردیابی وضعیت (State-tracking) نابینا هستند. در حالی که اتکای صنعت به الگوی «مدل زبانی به عنوان داور» (LLM-as-judge) به‌عنوان جایگزینی کم‌هزینه برای بازبینی انسانی افزایش یافته است، این مطالعه شکافی بنیادین را آشکار می‌کند: ناتوانی داوران در درک شکست‌هایی که در طول چندین نوبت گفتگو پخش شده‌اند.

همان‌طور که در تحلیل قبلی ما درباره‌ی CIAware-Bench اشاره کردیم، شناسایی مداخلات در خروجی مدل‌ها چالش‌برانگیز است، اما مشکل فعلی عمیق‌تر است؛ داوران فعلی صرفاً به سطح زبانی توجه دارند، نه منطق عملیاتی.

پژوهشگران یک عامل (Agent) سفارش غذا و نوشیدنی را ارزیابی کردند و به تضاد تکان‌دهنده‌ای میان امتیازات خودکار و حسابرسی‌های انسانی رسیدند:

داور خودکار تنها ۲۲٪ از الگوهای سیستماتیک (۲ مورد از ۹ مورد) را در یک دسته شناسایی کرد.
در دسته‌ای دیگر، یک گیت عملیاتی ۰٪ از خطاها را شناسایی کرد، در حالی که بازبین‌های انسانی ۲۳ نقص مجزا و ۷ الگوی متقاطع جدید یافتند.
مشکل اصلی در «مسیریابی» است؛ از ۱۱۴ مورد نقص وضعیت که داور شناسایی کرد، ۱۱۳ مورد به‌اشتباه به عنوان نقص در «لحن برند» ثبت شدند، نه شکست عملیاتی.

این شکاف از روباریک‌های امتیازدهی (Scoring Rubrics) ناشی می‌شود که بر محورهای کلی مانند قصد کاربر، لحن برند و شخصی‌سازی تمرکز دارند و ابعادی چون ردیابی وضعیت، حفاظ‌ها (Guardrails) و مکانیسم‌های بازیابی را نادیده می‌گیرند.

این یافته این فرض را که «افزایش هوشمندی مدل داور» راهکار این مشکل است، به چالش می‌کشد. این نقطه کور معماری است، نه ادراکی. محدود کردن معیارها به محورهای زبانی، یک «کف رگرسیون» ایجاد می‌کند که توهمات شدید را می‌پوشاند و باعث می‌شود تخمین شیوع خطاها ۳ تا ۶ برابر کمتر از واقعیت باشد.

گام بعدی شما

روباریک‌های ارزیابی خود را فوراً بازبینی کنید تا معیارهای صریح ردیابی وضعیت و بازیابی خطا را شامل شوند.
به دنبال چارچوب‌های ارزیابی ترکیبی باشید که بررسی‌های نمادین وضعیت (Symbolic state-checkers) را با داوران LLM ادغام می‌کنند.
تا زمان استقرار سیستم‌های ترکیبی، بازبینی انسانی را برای نمونه‌های چندمرحله‌ای (Multi-turn) حذف نکنید.

اما داستان سخت‌افزاری این تحول و فشار بر حافظه در زمان استنتاج حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

داور خودکار تنها ۲۲٪ از الگوهای سیستماتیک (۲ مورد از ۹ مورد) را در یک دسته شناسایی کرد.
در دسته‌ای دیگر، یک گیت عملیاتی ۰٪ از خطاها را شناسایی کرد، در حالی که بازبین‌های انسانی ۲۳ نقص مجزا و ۷ الگوی متقاطع جدید یافتند.
مشکل اصلی در «مسیریابی» است؛ از ۱۱۴ مورد نقص وضعیت که داور شناسایی کرد، ۱۱۳ مورد به‌اشتباه به عنوان نقص در «لحن برند» ثبت شدند، نه شکست عملیاتی.

گام بعدی شما

روباریک‌های ارزیابی خود را فوراً بازبینی کنید تا معیارهای صریح ردیابی وضعیت و بازیابی خطا را شامل شوند.
به دنبال چارچوب‌های ارزیابی ترکیبی باشید که بررسی‌های نمادین وضعیت (Symbolic state-checkers) را با داوران LLM ادغام می‌کنند.
تا زمان استقرار سیستم‌های ترکیبی، بازبینی انسانی را برای نمونه‌های چندمرحله‌ای (Multi-turn) حذف نکنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقطه کور داوران LLM: ۸۰٪ از نقص‌های عامل‌های چندمرحله‌ای نادیده گرفته می‌شوند

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقطه کور داوران LLM: ۸۰٪ از نقص‌های عامل‌های چندمرحله‌ای نادیده گرفته می‌شوند

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقطه کور داوران LLM: ۸۰٪ از نقص‌های عامل‌های چندمرحله‌ای نادیده گرفته می‌شوند

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

نقطه کور داوران LLM: ۸۰٪ از نقص‌های عامل‌های چندمرحله‌ای نادیده گرفته می‌شوند

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران