اگر تصور میکنید عاملهای هوش مصنوعی شما قادرند بهطور مستقل و دقیق بین مرورگر و ترمینال جابجا شوند، احتمالاً در مورد قابلیتهای واقعی آنها دچار خوشبینی هستید. باید بدانید که اکثر این سیستمها حتی وقتی نتیجهی نهایی درستی ارائه میدهند، در مسیر رسیدن به آن هدف شکست میخورند.
بر اساس مقاله پژوهشی منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، بنچمارک WeaveBench نشان میدهد که نرخ موفقیت (PassRate) بالاترین مدلهای فعلی در مدیریت رابطهای ترکیبی تنها ۴۱.۲ درصد است. این شکاف عملکردی ثابت میکند که ارزیابیهای فعلی با نادیده گرفتن «مسیر رسیدن به جواب»، منجر به ایجاد توهمی از قابلیتهای این مدلها شده است.
همانطور که در تحلیل قبلی ما دربارهی چالشهای استقرار عاملها در محیطهای عملیاتی اشاره کردیم، تفاوت میان محیطهای آزمایشگاهی و دنیای واقعی در پیچیدگی جابجایی میان ابزارهاست. در حالی که اکثر عامل (Agent)ها را به صورت جداگانه برای کنترل مرورگر یا اجرای ترمینال آزمایش میکنند، گردشکارهای حرفهای نیازمند گذاری سیال بین کنترل دسکتاپ، اجرای خط فرمان و ویرایش کد هستند.
طبق مستندات WeaveBench، این بنچمارک ۱۱۴ وظیفه را در ۸ دامنه کاربردی روی یک دسکتاپ Ubuntu ارزیابی میکند. ویژگیهای فنی این سامانه عبارتند از:
- الزام به استفاده از رابط ترکیبی: هر مسیر اجرا باید ترکیبی از مشاهدات رابط کاربری گرافیکی (GUI) و عملیات رابط خط فرمان (CLI) باشد.
- داورِ آگاه از مسیر: سیستمی که علاوه بر خروجی، فایلها، اسکرینشاتها و لاگها را بازرسی میکند.
- مکانیسم شناسایی تقلب: شناسایی شواهد بصری جعلی یا متریکهای سختسانیشدهای (hard-coded) که برای فریب دادن گریدرهای ساده به کار میروند.
برای جامعه فنی، این یافتهها نقطه هدف ارزیابی را تغییر میدهد. این موضوع ثابت میکند که درجهبندی بر اساس نتیجه (Outcome-only grading) — یعنی صرفاً بررسی اینکه آیا فایلی ایجاد شده یا خیر — عملکرد مدل را بهشدت بیشتخمین میزند. چالش واقعی دیگر تنها «استفاده از ابزار» نیست، بلکه ارکستراسیون زمانبرِ محیطهای مختلف است.
گام بعدی شما
- در طراحی عاملها، اولویت را به سیستمهایی بدهید که مسیر اجرای خود را از طریق لاگهای قابل راستیآزمایی اثبات میکنند، نه صرفاً خروجی نهایی.
- برای شناسایی نقاط شکست در منطق جابجایی میان رابطهای مدل خود، از دیتاست WeaveBench استفاده کنید.
- بررسی کنید که آیا مدل شما در مواجهه با وظایف طولانیمدت، تمایل به تولید شواهد جعلی برای رسیدن به هدف دارد یا خیر.
اما هزینه محاسباتی این ارکستراسیون در مقیاس واقعی حتی چالشبرانگیزتر است؛ برای درک بهتر این گلوگاه، به تحلیل ما دربارهی هزینههای استنتاج در مدلهای استدلالی مراجعه کنید.
گفتگو