اگر فکر میکنید راه رسیدن به عاملهای وب قابلاعتماد، تنها با افزایش بینهایهی پنجرههای متنی ممکن است، باید نتایج SuperBrowser را بررسی کنید. نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Hard Mind2Web، سقف جدیدی برای عاملهای (Agents) خودگردان در محیط وب تعریف کرده است. این جهش در نرخ موفقیت، پاسخی مستقیم به چالشهای بنیادین در تعامل با محیطهای ترکیبی است؛ همان چالشهایی که توضیح میدهد چرا عاملهای هوش مصنوعی پیشین در مدیریت همزمان محیطهای گرافیکی و متنی با شکست مواجه میشدند.
این دستاورد که طبق اعلام پژوهشگران در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، نقطه عطفی در عبور از رویکرد سنتی تغذیه مدلها با کل درخت DOM (Document Object Model) است. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای توکن در مدلهای زبانی بزرگ اشاره کردیم، حجم زیاد دادههای غیرضروری اغلب منجر به سرریز متنی یا توهم مدل میشود.
به نقل از مستندات این پژوهش، SuperBrowser بر اساس این فرضیه عمل میکند که یک عامل باید دقیقاً مشابه یک انسان وبگردی کند. به جای حفظ هر پیکسل، این سیستم از یک تثلیث «ادراک-شناخت-عمل» بهره میبرد تا اطلاعات مرتبط با هدف را بر دادههای خام اولویت دهد. این معماری بر سه محور استوار است:
- خط لول بیناییمحور (Vision-First Pipeline): سامانهای ناهمگام که مناطق تعاملی را روی اسکرینشاتها برچسبگذاری میکند تا «چشم» پیش از «دست» دادهها را پیشکِش کند.
- مغز سهنقشی: تفکیک استدلال استراتژیک بین یک هماهنگکننده (Orchestrator) برای مسیریابی، یک برنامهریز (Planner) برای ارزیابی پیشرفت و یک مجری (Worker) برای اقدامات گامبهگام.
- دفتر کل ساختاریافته (Structured Ledger): سیستمی برای ذخیره هدف، سه اقدام اخیر و حقایق کلیدی، که از یک حلقه حذف ۶ مرحلهای برای پاکسازی دادههای قدیمی و سبک نگه داشتن متن فعال استفاده میکند.
برای اجرا، SuperBrowser از پروتکل ابزارهای توسعه کروم (Chrome DevTools Protocol) و Puppeteer استفاده میکند. همچنین برای رفع ابهامات در عناصر کوچک رابط کاربری (UI)، از حرکات Bezier انسانگونه و یک مکانیسم Snapper آگاه از علامتهای Chevron بهره میبرد.
تحلیل ما نشان میدهد که در دنیای عاملهای وب، «توانایی فراموش کردن» به اندازه «توانایی یادآوری» اهمیت دارد. این معماری اثبات میکند که کارایی شناختی برای پایداری عامل، بسیار حیاتیتر از داشتن پنجرههای متنی عظیم است.
گام بعدی شما
- رصد ادغام حلقههای حافظه انتخابی (Selective Memory) در چارچوبهای عاملهای متنباز.
- بررسی قابلیت انتقال این معماری سه-نقشی به محیطهای تکهتکه اپلیکیشنهای موبایل.
اما تأثیر این رویکرد بر کاهش هزینههای استنتاج (Inference) در مقیاس صنعتی، داستان پیچیدهتری دارد — به تحلیل ما دربارهی بهینهسازیهای سختافزاری Blackwell مراجعه کنید.
گفتگو