تیمی از پژوهشگران معیار ارزیابی جامعی به نام CocoaBench را معرفی کردهاند که برای سنجش عوامل دیجیتال در سناریوهای واقعی طراحی شده است. این معیار با هدف پر کردن خلأ موجود در ارزیابی هوش مصنوعی، سیستمها را در وظایفی محک میزند که نیازمند ترکیب انعطافپذیر قابلیتهای بینایی، جستجو و کدنویسی هستند، به جای آزمایش تکتک مهارتها بهصورت مجزا.
برخلاف معیارهای سنتی که مهارتهای خاص را در شرایط ایزوله میسنجند، CocoaBench وظایف بلندمدت و طراحیشده توسط انسان را به عوامل ارائه میدهد که مستلزم یکپارچهسازی تواناییهای متعدد است. مشخصات وظایف از طریق دستورات زبان طبیعی همراه با توابع ارزیابی خودکار ارائه میشوند که نتیجه نهایی را میسنجند و امکان ارزیابی قابل اعتماد و مقیاسپذیر را در زیرساختهای متنوع عامل فراهم میکنند.
پژوهشگران همچنین CocoaAgent را معرفی کردهاند؛ چارچوب پایهای سبکوزن که مقایسه کنترلشده میان مدلهای پشتیبان مختلف را ممکن میسازد. این استانداردسازی تضمین میکند که مقایسهها بر مدلهای زیربنایی تمرکز داشته باشند نه جزئیات پیادهسازی.
نتایج تجربی نشاندهنده فضای قابل توجهی برای پیشرفت در عوامل هوش مصنوعی فعلی است. بهترین سیستم مورد ارزیابی تنها ۴۵.۱ درصد نرخ موفقیت در این معیار کسب کرد که نشان میدهد حتی سیستمهای پیشرفته نیز در وظایف یکپارچهای که نیازمند استدلال، برنامهریزی و اجرا در چندین وجه هستند، با مشکل مواجهاند.
تحلیلها سه حوزه اصلی برای بهبود را شناسایی کردهاند: تواناییهای استدلال و برنامهریزی، دقت استفاده و اجرای ابزارها، و درک بصری. این یافتهها نشان میدهند که اگرچه اجزای فردی هوش مصنوعی ممکن است در شرایط کنترلشده عملکرد خوبی داشته باشند، یکپارچهسازی آنها در عوامل یکپارچه قابل اعتماد همچنان چالشی بزرگ است.
این معیار نمایانگر گذاری به سمت روشهای ارزیابی عملیتر است و از آزمونهای تکتک قابلیتها فاصله میگیرد و به سمت ارزیابیهایی حرکت میکند که ماهیت پیچیده و چندوجهی وظایف دیجیتال واقعی را منعکس میسازند. پژوهشگران تأکید میکنند که ارزیابی قابل اعتماد و مقیاسپذیر عوامل یکپارچه برای پیشبرد این حوزه ضروری است و CocoaBench تلاش دارد ابزارهای استانداردی را برای سنجش پیشرفت جامعه در این مسیر فراهم کند.

گفتگو