اگر امروز کدهایی که عاملهای هوش مصنوعی مینویسند را با ابزارهای командلاین تست میکنید، احتمالاً دارید نمرات غلط میگیرید. در ۲۸ ژوئن ۲۰۲۶، یک توسعهدهنده متوجه شد که مشکل کدش نبود، بلکه «خطکش» او برای اندازهگیری شکست میخورد.
تست کردن اجزای وب که توسط عامل (Agent) — شبیه دستیاری که میتواند ابزارهایی را برای انجام یک وظیفه انتخاب و اجرا کند — تولید شدهاند، بهطرز فریبندهای پیچیده است. بسیاری از برنامهنویسان برای تایید حضور یک المان در صفحه، به ابزارهای ساده متکی هستند که در سایتهای استاتیک جواب میدهد اما در محیطهای پویا شکست میخورد. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، تفاوت میان محیط تست و محیط واقعی میتواند نتایج را بهکلی تغییر دهد.
طبق گزارش این توسعهدهنده، او از Next.js 14 و کتابخانه shadcn/ui برای ساخت صفحهای با ۱۲ جدول ردهبندی و ۷۸ لینک مسابقه استفاده کرده بود. او ابتدا برای تایید خروجی از ترکیب curl و grep استفاده کرد. این روش منجر به امتیاز ضعیف ۷/۱۷ شد، زیرا خروجیهای رندرینگ سمت سرور (SSR) در حالت Streaming بهصورت فشرده (Minified) هستند و تگها یا ویژگیهای camelCase را که grep به دنبال آنهاست، حذف میکنند.
برای رفع این مشکل، او روش کار را تغییر داد و بهجای استخراج مستقیم جریان داده (Stream Scraping)، از یک پارسر HTML استاتیک برای فایلهای موجود در مسیر .next/server/app/match/*.html استفاده کرد. بر اساس مستندات این تجربه، این تغییر ساده بلافاصله امتیاز موفقیت را از ۷/۱۷ به ۱۵/۱۶ رساند. نویسنده اشاره کرد که ابزاری مثل TestSprite با استفاده از نمونههای واقعی مرورگر Chromium، دقتی چندین برابر بیشتر از جستوجوی متنی ساده دارد.
این اتفاق نشاندهنده یک ریسک جدی در عصر عاملمحور است: «شکاف تأیید». وقتی یک تست شکست میخورد، ما سریعاً کد AI را متهم میکنیم، در حالی که مقصر واقعی ابزار اعتبارسنجی ماست. اعتماد به سامانههای هوش مصنوعی نه با گرفتن جواب درست، بلکه با شناخت دقیق لحظهای ساخته میشود که ابزار اندازهگیری ما دارد دروغ میگوید.
گام بعدی شما
- بهجای جستوجوی متنی (grep)، از ابزارهایی که DOM را رندر میکنند مثل Playwright یا Puppeteer استفاده کنید.
- در محیطهای SSR، خروجیهای فشرده شده را مستقیماً تحلیل نکنید و ابتدا آنها را پارس کنید.
- به دنبال توسعه «عاملهای آگاه به ارزیابی» (eval-aware) باشید که میتوانند خطاهای تست خود را در لحظه تشخیص دهند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو