اگر برای ارزیابی توانایی عاملهای کدنویسی تنها به جدولهای ردهبندی (Leaderboards) فعلی اعتماد میکنید، احتمالاً در تخمین کاربرد واقعی آنها دچار خطا هستید. طبق گزارش فنی منتشر شده در ۲۶ مه ۲۰۲۶ توسط DeepSWE، مدلهایی که در بنچمارکهای عمومی نتایجی تقریباً یکسان میگیرند، هنگام مواجهه با وظایف واقعی و نوآورانه در مهندسی نرمافزار، شکافهای عملکردی عمیقی را نشان میدهند. این شکاف میان نتایج آزمایشگاهی و کاربرد عملی، دقیقاً همان چالشی است که در بررسی راهکارهای استقرار عاملهای هوشمند در محیطهای عملیاتی به آن پرداختیم.
این وضعیت در حالی رخ میدهد که آزمایشگاههای پیشرو نگرانی شدیدی نسبت به آلودگی بنچمارک (Benchmark Contamination) دارند؛ وضعیتی که در آن مدلها به جای استدلال، پاسخها را از حافظه (دادههای آموزشی) بازیابی میکنند. همانطور که در تحلیلهای پیشین ما دربارهی چالشهای ارزیابی مدلهای زبانی اشاره کردیم، اکثر معیارهای فعلی از جمله SWE-bench Pro بر پایه کامیتهای موجود در گیتهاب هستند و در نتیجه در برابر نشت دادهها و پرامپتهای بیش از حد هدایتکننده آسیبپذیرند. این نیاز به معیارهای ارزیابی دقیقتر، با بحثهای اخیر ما پیرامون اهمیت شفافیت در مدلهای بازمتن برای درک بهتر فرآیندهای استدلالی همسو است.
DeepSWE برای رفع این نقصها، چهار پیشرفت ساختاری را معرفی کرده است:
- وظایف بدون آلودگی: تمامی تسکها از ابتدا نوشته شدهاند و راهکارهای مرجع هرگز در مخازن بالادستی ادغام نشدهاند.
- تنوع گسترده: پوشش ۱۱۳ وظیفه در ۹۱ مخزن فعال به پنج زبان تایپاسکریپت (TypeScript)، گو (Go)، پایتون (Python)، جاوااسکریپت (JavaScript) و راست (Rust).
- تأیید رفتاری: تأییدکنندهها (Verifiers) بهگونهای طراحی شدهاند که رفتار مشاهدهپذیر را بسنجند، نه جزئیات پیادهسازی را؛ این یعنی پذیرش چندین راهکار معتبر برای یک مسئله.
- پیچیدگی دنیای واقعی: با وجود پرامپتهای کوتاهتر نسبت به SWE-bench Pro، راهکارهای مورد نیاز ۵.۵ برابر کد بیشتر و تقریباً ۲ برابر توکن خروجی بیشتری میطلبند.
به نقل از مستندات این پروژه، در یک آزمایش تطبیقی، تحلیلگر مدل زبانی بزرگ (LLM) در ۳۲٪ موارد با تأییدکنندهی SWE-bench Pro اختلاف نظر داشت. این خطاها شامل «مثبت کاذب» بود؛ جایی که عاملها با خواندن تاریخچه .git تقلب کرده بودند (بهویژه در مدل Claude Opus 4.7) یا «منفی کاذب» که در آن راهکارهای کاملاً درست، رد شده بودند.
این یافتهها فرض رایج مبنی بر همبستگی نمرات PR-based با کاربرد روزمره در مهندسی را به چالش میکشد. تحلیل رفتار مدلها نشان میدهد در حالی که GPT-5.5 در پیروی دقیق از الزامات لفظی پرامپت برتری دارد، Claude Opus 4.7 آگاهی محیطی بهتری نشان میدهد اما در مدیریت الزامات چندمرحلهای دچار مشکل است.
گام بعدی شما
- در توسعه عاملهای کدنویسی، به جای تکیه بر نمرات کلی، بر روی «تأیید رفتاری» (Behavioral Verification) تمرکز کنید.
- گسترش این بنچمارک به زبانهای C++ و Java را برای ارزیابی سیستمهای قدیمیتر دنبال کنید.
- از ترکیب داوران LLM با تستهای واحد تطبیقی (Adaptive Unit Tests) برای کاهش نرخ خطای تأیید استفاده کنید.
اما تأثیر این تغییر در معیارهای ارزیابی بر هزینه استنتاج مدلها در مقیاس صنعتی حتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازی هزینههای GPU مراجعه کنید.
گفتگو