اشتباه در ابزار سنجش: تغییر روش تحلیل HTML نرخ موفقیت کد AI را دو برابر کرد

اگر امروز کدهایی که عامل‌های هوش مصنوعی می‌نویسند را با ابزارهای команд‌لاین تست می‌کنید، احتمالاً دارید نمرات غلط می‌گیرید. در ۲۸ ژوئن ۲۰۲۶، یک توسعه‌دهنده متوجه شد که مشکل کدش نبود، بلکه «خط‌کش» او برای اندازه‌گیری شکست می‌خورد.

تست کردن اجزای وب که توسط عامل (Agent) — شبیه دستیاری که می‌تواند ابزارهایی را برای انجام یک وظیفه انتخاب و اجرا کند — تولید شده‌اند، به‌طرز فریبنده‌ای پیچیده است. بسیاری از برنامه‌نویسان برای تایید حضور یک المان در صفحه، به ابزارهای ساده متکی هستند که در سایت‌های استاتیک جواب می‌دهد اما در محیط‌های پویا شکست می‌خورد. همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، تفاوت میان محیط تست و محیط واقعی می‌تواند نتایج را به‌کلی تغییر دهد.

طبق گزارش این توسعه‌دهنده، او از Next.js 14 و کتابخانه shadcn/ui برای ساخت صفحه‌ای با ۱۲ جدول رده‌بندی و ۷۸ لینک مسابقه استفاده کرده بود. او ابتدا برای تایید خروجی از ترکیب curl و grep استفاده کرد. این روش منجر به امتیاز ضعیف ۷/۱۷ شد، زیرا خروجی‌های رندرینگ سمت سرور (SSR) در حالت Streaming به‌صورت فشرده (Minified) هستند و تگ‌ها یا ویژگی‌های camelCase را که grep به دنبال آن‌هاست، حذف می‌کنند.

برای رفع این مشکل، او روش کار را تغییر داد و به‌جای استخراج مستقیم جریان داده (Stream Scraping)، از یک پارسر HTML استاتیک برای فایل‌های موجود در مسیر .next/server/app/match/*.html استفاده کرد. بر اساس مستندات این تجربه، این تغییر ساده بلافاصله امتیاز موفقیت را از ۷/۱۷ به ۱۵/۱۶ رساند. نویسنده اشاره کرد که ابزاری مثل TestSprite با استفاده از نمونه‌های واقعی مرورگر Chromium، دقتی چندین برابر بیشتر از جست‌وجوی متنی ساده دارد.

این اتفاق نشان‌دهنده یک ریسک جدی در عصر عامل‌محور است: «شکاف تأیید». وقتی یک تست شکست می‌خورد، ما سریعاً کد AI را متهم می‌کنیم، در حالی که مقصر واقعی ابزار اعتبار‌سنجی ماست. اعتماد به سامانه‌های هوش مصنوعی نه با گرفتن جواب درست، بلکه با شناخت دقیق لحظه‌ای ساخته می‌شود که ابزار اندازه‌گیری ما دارد دروغ می‌گوید.

گام بعدی شما

به‌جای جست‌وجوی متنی (grep)، از ابزارهایی که DOM را رندر می‌کنند مثل Playwright یا Puppeteer استفاده کنید.
در محیط‌های SSR، خروجی‌های فشرده شده را مستقیماً تحلیل نکنید و ابتدا آن‌ها را پارس کنید.
به دنبال توسعه «عامل‌های آگاه به ارزیابی» (eval-aware) باشید که می‌توانند خطاهای تست خود را در لحظه تشخیص دهند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گام بعدی شما

به‌جای جست‌وجوی متنی (grep)، از ابزارهایی که DOM را رندر می‌کنند مثل Playwright یا Puppeteer استفاده کنید.
در محیط‌های SSR، خروجی‌های فشرده شده را مستقیماً تحلیل نکنید و ابتدا آن‌ها را پارس کنید.
به دنبال توسعه «عامل‌های آگاه به ارزیابی» (eval-aware) باشید که می‌توانند خطاهای تست خود را در لحظه تشخیص دهند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اشتباه در ابزار سنجش: تغییر روش تحلیل HTML نرخ موفقیت کد AI را دو برابر کرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اشتباه در ابزار سنجش: تغییر روش تحلیل HTML نرخ موفقیت کد AI را دو برابر کرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اشتباه در ابزار سنجش: تغییر روش تحلیل HTML نرخ موفقیت کد AI را دو برابر کرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اشتباه در ابزار سنجش: تغییر روش تحلیل HTML نرخ موفقیت کد AI را دو برابر کرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران