هنوز هم منتظرید تا مدلهای بینایی شما با احتمال خطا، مختصات یک دکمه را حدس بزنند؟ تصور کنید هزینهی توکنهای شما برای یک عملیات سادهی دسکتاپ، ۹۶ درصد کاهش یابد.
به نقل از مستندات گیتهاب پروژه، ابزار agent-desktop که در ۲ مه ۲۰۲۶ توسط توسعهدهندهای به نام lahfir منتشر شد، پارادایم اتوماسیون را از پردازش بصری به دادههای ساختاریافته تغییر میدهد. این ابزار به جای تکیه بر مدلهای بینایی گرانقیمت، از درختهای دسترسی (Accessibility Trees) سیستمعامل استفاده میکند تا خروجیهای JSON ماشینخوان تولید کند. به این ترتیب، عاملها (Agents) میتوانند بدون نیاز به حتی یک اسکرینشات، با هر برنامهای از Safari تا Xcode تعامل کنند.

طبق اعلام توسعهدهنده، هستهی فنی این ابزار برای دستیابی به حداکثر کارایی با زبان Rust نوشته شده و به صورت یک باینری واحد عرضه میشود. برای جلوگیری از سربار اجرای مکرر CLI در هر عملیات، این ابزار شامل یک کتابخانهی C-ABI cdylib به نام libagent_desktop_ffi است که امکان فراخوانیهای مستقیم و بدون وقفه را در زبانهای Python، Swift، Go و Node.js فراهم میکند.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای استنتاج در مدلهای چندوجهی اشاره کردیم، حجم بالای دادههای بصری همواره گلوگاه اصلی سرعت و هزینه بوده است. agent-desktop با معرفی مکانیزم «پیمایش اسکلت پیشرونده» (Progressive Skeleton Traversal)، این مشکل را حل کرده است. در برنامههای شلوغی مانند Slack یا VS Code، عامل ابتدا یک نمای کلی و کمعمق میگیرد و سپس روی مناطق خاص تمرکز میکند؛ استراتژیای که منجر به کاهش ۷۸ تا ۹۶ درصدی توکنها در اپلیکیشنهای متراکم میشود.

قابلیتهای کلیدی این ابزار عبارتند از:
- ارجاع قطعی (Deterministic Referencing): اختصاص شناسههای پایدار (مانند @e1) به عناصر تا زمان بهروزرسانی بعدی.
- تعامل اولویتدار با AX: تلاش حداکثری برای استفاده از APIهای دسترسی پیش از روی آوردن به رویدادهای موس.
- کنترل جامع: ۵۳ دستور متنوع برای مدیریت کیبورد، موس، پنجرهها و حتی اعلانهای macOS.
در حال حاضر این ابزار برای macOS ۱۳.۰ به بالا بهینه شده است، اما پشتیبانی از ویندوز و لینوکس در نقشهی راه قرار دارد. با تبدیل سیستمعامل به یک پایگاه دادهی ساختاریافته، این ابزار قابلیت اطمینانی را فراهم میکند که برای عاملهای سطح تولید (Production-grade) ضروری است.
اما این تنها بخشی از پازل است؛ تأثیر این رویکرد بر آیندهی مدلهای بینایی و احتمال حذف آنها در اتوماسیون رابط کاربری را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر توسعهدهندهی عاملهای دسکتاپ هستید، مستندات agent-desktop را در گیتهاب بررسی کنید تا هزینههای API خود را کاهش دهید.
- ساختار درختهای دسترسی سیستمعامل خود را بررسی کنید تا متوجه شوید مدلهای زبانی چگونه محیط شما را «میبینند».
- برای پیادهسازی در پروژههای پایتونی، از کتابخانهی libagent_desktop_ffi برای کاهش تأخیر (Latency) استفاده کنید.




گفتگو