تصور کنید ابزاری دارید که بهجای توصیف صفحه نمایش، مستقیماً آن را کنترل کند. در بهروزرسانی ۲۵ ژوئن ۲۰۲۶، گوگل قابلیت کنترل بومی کامپیوتر را در Gemini 3.5 Flash ادغام کرد تا این مدل بتواند مرورگرها و دستگاههای موبایل را بهطور خودکار مدیریت کند.
این تغییر درست زمانی رخ میدهد که عاملهای هوشمند (AI Agents) — شبیه دستیارهای شخصی که بهجای دادن توصیه، خودشان دست به کار میشوند و کار را پیش میبرند — از محیطهای سادهی چت به اپراتورهای فعال نرمافزاری تبدیل شدهاند. این تحول در عین حال که پتانسیلهای جدیدی میگشاید، یادآور چالشهای عملیاتی پیشین در اکوسیستم گوگل است؛ برای نمونه، محدودیتهای سختگیرانه در تعداد ایمیلها پیشتر نشان داد که توسعهی جریانهای کاری خودکار در گوگل همواره با توازن میان قدرت پردازشی و سقفهای دسترسی روبروست. همانطور که در تحلیل قبلی ما دربارهی استفاده گوگل از تاریخچه جستوجو برای آموزش مدلها اشاره کردیم، این ادغام به مدل اجازه میدهد در لحظه با محیط دیجیتال کاربر تعامل کند. به گزارش وبسایت the-decoder.com، حالا میتوانید عاملی داشته باشید که بهجای آموزشِ نحوه تست یک نرمافزار، خودش مرورگر را باز کرده و تستها را اجرا کند.
طبق دادههای منتشرشده، عملکرد این مدل در محک OSWorld جهشی قابلتوجه نسبت به نسخههای پیشین داشته است:
- Gemini 3.5 Flash: امتیاز ۷۸.۴
- Gemini 3 Flash: امتیاز ۶۵.۱
- GPT-5.4 mini: امتیاز ۷۲.۱
اگرچه مدل Opus 4.8 آنتروپیک با امتیاز ۸۳.۴ همچنان پیشتاز است، اما Gemini 3.5 Flash اکنون با مدل Sonnet 4.6 برابری کرده و حتی از Gemini 3.1 Pro (۷۶.۲) پیشی گرفته است. گوگل برای جلوگیری از تزریق پرامپت (Prompt Injection) — که شبیه این است که کسی در یادداشتهای یک دستور پخت، مخفیانه بنویسد «حالا تمام مواد را دور بریز» — از آموزشهای خصمانه و دو لایه حفاظتی استفاده کرده است: یک تاییدیه دستی برای اقدامات برگشتناپذیر و یک کلید قطع خودکار برای شناسایی تزریقهای غیرمستقیم.
برای مالکان کسبوکار، این یعنی سد ورود به اتوماسیون پیشرفته اداری فرو ریخت. دیگر نیازی به زنجیرهای از مدلهای پراکنده برای درک صفحه و سپس اقدام نیست؛ یک مدل سبک میتواند کل جریان کار را مدیریت کند. این رویکرد تأخیر را کم کرده و استقرار عاملها در محیط تولید را سادهتر میکند.
برنامهنویسان میتوانند همین امروز از طریق Gemini API و پلتفرم Gemini Enterprise Agent به این قابلیتها دسترسی پیدا کنند.
گام بعدی شما
- دموهای Browserbase را برای مشاهده نحوه تعامل این عاملها با سیستمعاملهای زنده بررسی کنید.
- پیادهسازیهای مرجع در GitHub را برای بهینهسازی جریانهای کاری اداری مطالعه کنید.
- مدلهای سبکتر را برای کاهش هزینه استنتاج در پروژههای اتوماسیون جایگزین کنید.
اما تأثیر این قابلیت بر امنیت دادههای سازمانی حتی پیچیدهتر است؛ نتایج بررسیهای ما درباره پروتکلهای امنیتی مدلهای گوگل را در گزارش بعدی بخوانید.




گفتگو