تصور کنید یک مدل زبانی محلی تمام کارهای وب شما را انجام دهد، بدون اینکه حتی یک بایت از دادههای صفحات شما از دستگاهتان خارج شود. WebBrain، یک عامل (Agent) متنباز که توسط امره سوکولو ساخته شده، این هدف را در قالب یک افزونه برای کروم و فایرفاکس محقق کرده است.
اکثر ابزارهای هوش مصنوعی مرورگر تنها یک لایهی ظاهری هستند، اما جریان فعلی به سمت ادغام عمیقتر با سیستم پیش میرود. همانطور که در تحلیل قبلی ما دربارهی کاهش هزینههای استنتاج در سرویسهایی مثل DeepInfra اشاره کردیم، هدف اصلی کاهش اصطکاک در فراخوانی API بود؛ اما WebBrain کلاً محاسبات را به لبه (Edge Computing) میبرد. این رویکرد یادآور تلاشهای مشابه برای تبدیل مرورگر به یک محیط اجرای امن است، همانگونه که پلتفرم peerd سعی داشت مرورگر را به یک محیط اجرای ایزوله برای عاملهای هوش مصنوعی تبدیل کند. این یعنی شما دیگر مجبور نیستید بین حریم خصوصی و کارایی عاملهای وب یکی را انتخاب کنید.
این ابزار تحت مجوز MIT در گیتهاب منتشر شده و دقیقاً در همان جلسهی احراز هویت شما عمل میکند؛ یعنی حسابهای کاربری شما را درست همانطور که شما میبینید، میبیند. طبق مستندات پروژه، برای حفظ امنیت، هیچ دادهای بهصورت خارجی ذخیره نمیشود و هیچ سیستم تلهمتری یا حساب داخلی در آن تعبیه نشده است.
پیادهسازی فنی این ابزار بسته به مرورگر متفاوت است تا بیشترین بهره را از قابلیتهای بومی ببرد:
- کروم: از Manifest V3 و API مربوط به
sidePanelاستفاده میکند. - فایرفاکس: بر پایه Manifest V2 و
sidebar_actionاست.
بر اساس گزارش توسعهدهنده، WebBrain برای ایجاد تعادل بین قدرت و ایمنی، دو حالت عملیاتی دارد:
اول، حالت Ask است؛ وضعیتی فقط-خواندنی که از اسکریپتهای محتوی برای خلاصهسازی صفحات یا استخراج داده استفاده میکند و برای پاسخها از دمای (Temperature) ۰.۳ استفاده میکند.
دوم، حالت Act است؛ وضعیتی با دسترسی بالا که صفحه را از طریق پروتکل ابزارهای توسعهی کروم (Chrome DevTools Protocol یا CDP) هدایت میکند. این روش به عامل اجازه میدهد محدودیتهای اسکریپتهای عادی را دور بزند و حتی به iframeهای متقاطع و Shadow DOMها دسترسی پیدا کند. در این حالت، دما برای پیشبینیپذیری بیشتر روی ۰.۱۵ تنظیم شده است.
از نظر امنیتی، WebBrain از قانون «اول-رابط-کاربری» پیروی میکند. این عامل از فراخوانی مستقیم نقاط پایانی REST یا GraphQL برای کارهایی مثل خرید یا ارسال پیام خودداری میکند و مجبور است از طریق رابط کاربری قابل مشاهده عمل کند. همچنین برای مقابله با تزریق پرامپت (Prompt Injection) در صفحات وب، ابزار بهطور پیشفرض در حالت Read-only یا همان Ask استارت میخورد.
سایر حفاظها شامل موارد زیر است:
- تأیید کاربر: پیش از هر اقدام حساس، اجازه کاربر میگیرد (قابل تغییر در تنظیمات).
- تجاوز از API: در صورت شکست رابط کاربری، کاربر میتواند با دستور
/allow-apiمحدودیتها را بردارد. - جداسازی خواندن: برای استخراج اطلاعات از READMEها یا مقایسه قیمتها، از ابزارهای
fetch_urlاستفاده میکند که چون تغییری در سرور ایجاد نمیکند، تحت قوانین سختگیرانه Mutation نیست.
برخی از کاربردهای عملی این ابزار عبارتند از:
- استخراج داده: تبدیل یک کاتالوگ محصول به ردیفهای منظم از نام و قیمت.
- پژوهش: خلاصهسازی مقالات و شناسایی صادقانه دیوار پرداخت (Paywall) بدون تلاش برای دور زدن آن.
- پر کردن فرمها: استفاده از یک پروفایل متنی محلی برای تکمیل فرمهای کمریسک.
- اتوماسیون چندمرحلهای: اجرای زنجیرهای از دستورات مثل «رفتن به گیتهاب و یافتن مخازن ترند شده».
برای بهینهسازی مصرف توکن (Token) — که مثل برشهای کوچک یک کیک هستند و مدل آنها را تکهتکه میخورد — WebBrain ابتدا اسکرینشاتها را فشرده و تغییر اندازه میدهد. همچنین تاریخچه گفتگوها را بر اساس پنجره زمینه (Context Window) — یعنی میز کاری مدل که فقط جای چند ورق دارد — بهصورت قدیمیترین-اول میبرد.
این ابزار از طیف وسیعی از ارائهدهندگان پشتیبانی میکند. گزینههای محلی شامل llama.cpp، Ollama و vLLM هستند و گزینههای ابری شامل OpenAI، Claude و Gemini میشوند. برای کسانی که سختافزار ندارند، نسخه ابری با هزینه ۵ دلار در ماه در دسترس است.
برای اجرای محلی، توصیه میشود از مدل Qwen 3.6 35B استفاده کنید که در بنچمارکهای اسکرینشات، عملکرد بهتری نسبت به Gemma 4 داشته است. از نظر سختافزاری، کارت گرافیک RTX 5090 ایدهآل است، اما RTX 4090 با استفاده از کوانتش (Quantization) INT4 AutoRound همچنان پاسخگو است.
این چرخش به سمت عاملهای محلی، تحلیل هزینه-فایده را برای کاربران حرفهای تغییر میدهد. با جدا کردن عامل از اشتراکهای ابری، مرورگر از یک نمایشگر غیرفعال به یک محیط برنامهریزیپذیر تبدیل میشود. استفاده از CDP به جای دستکاری سادهی DOM یعنی این عاملها بالاخره میتوانند با وباپلیکیشنهای پیچیده مدرن که رباتها را مسدود میکردند، تعامل داشته باشند. این موضوع در حالی اهمیت مییابد که استانداردهای وب برای شناسایی رباتها در حال تغییر است و پروتکل PACT کلودفلر تلاش میکند با تغییر رویکرد به شناسایی هویت، عصر اعتماد به رشتههای User-Agent را به پایان برساند.
گام بعدی شما
- اگر کارت گرافیک سری ۴۰ یا ۵۰ دارید، WebBrain را با مدل Qwen 3.6 روی Ollama امتحان کنید تا سرعت اجرای کارهای وب را بسنجید.
- در تنظیمات Permissions، حالت تایید کاربر را فعال نگه دارید تا کنترل دقیقی روی عملیات Act داشته باشید.
- برای استخراج دادههای حجیم از صفحات وب، ابتدا از حالت Ask برای تحلیل ساختار و سپس از Act برای جمعآوری استفاده کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو