تصور کنید یک عامل (Agent) هوشمند داشته باشید که برای کنترل کامپیوتر شما، نیازی به دفترچه راهنما یا دسترسی به کدهای داخلی ندارد. او فقط به صفحه نمایش نگاه میکند و دقیقاً میداند کجا را کلیک کند.
مایکروسافت (Microsoft) با انتشار OmniParser V2 در پلتفرم هاگینگ فیس (Hugging Face)، این رویا را به واقعیت نزدیکتر کرد. طبق مستندات این پروژه، این ابزار تصاویر خام رابط کاربری (UI) را به نقشههای ساختاریافتهای تبدیل میکند که مدلهای زبانی میتوانند بر اساس آنها تصمیم بگیرند؛ آن هم بدون نیاز به دسترسی به DOM (Document Object Model).
این رویکرد در تبدیل تصاویر خام به دادههای ساختاریافته، با تحول اخیر در پردازش اسناد نیز همراستاست؛ جایی که مدل olmOCR عصر OCRهای گرانقیمت را به پایان رسانده است.
به نقل از گزارشهای فنی مایکروسافت، این سیستم از ترکیب دو مدل قدرتمند بهره میبرد:
- YOLOv8: برای شناسایی دقیق آیکونها و نقاط قابل تعامل.
- Florence-2: برای توصیف عملکرد هر المان شناسایی شده.
این مدلها روی مجموعهای از صفحات وب محبوب و دادههای توصیفی آیکونها تنظیم دقیق (Fine-tuning) شدهاند تا هر نقطه کلیکپذیر در یک گوشی یا کامپیوتر را تشخیص دهند.
همانطور که در تحلیل قبلی ما دربارهی تکامل عاملهای هوشمند اشاره کردیم، حذف وابستگی به APIها گام بزرگی در مسیر استقلال مدلهاست. اکنون دیگر نیازی نیست نرمافزارها اجازه دسترسی بدهند؛ هوش مصنوعی صرفاً با «دیدن» یاد میگیرد.
جهش عملکرد در نسخهی دوم خیرهکننده است. طبق مستندات هاگینگ فیس، تأخیر (Latency) در مقایسه با نسخهی اول ۶۰٪ کاهش یافته است. این خط لوله پردازشی روی یک کارت گرافیک NVIDIA A100 بهطور متوسط ۰.۶ ثانیه و روی یک RTX 4090 حدود ۰.۸ ثانیه زمان میبرد. همچنین در بنچمارک ScreenSpot Pro، این مدل به دقت میانگین ۳۹.۶ درصد دست یافته است.
در کنار این ابزار، مایکروسافت چارچوب OmniTool را معرفی کرد. این ابزار به توسعهدهندگان اجازه میدهد یک ماشین مجازی ویندوز ۱۱ را با اتصال OmniParser به مدلهای بینایی دلخواه خود کنترل کنند. مدلهای پشتیبانی شده شامل موارد زیر است:
- OpenAI (مدلهای 4o، o1 و o3-mini)
- DeepSeek (مدل R1)
- Qwen (مدل 2.5VL)
- Anthropic Computer Use
این معماری بسیار حیاتی است؛ زیرا اکثر رباتهای اتوماسیون به قلابهای API یا تجزیکنندههای HTML نیاز دارند. اما OmniParser با صفحه نمایش مانند یک تصویر برخورد میکند. بنابراین، نرمافزارهای قدیمی، ابزارهای سازمانی بسته و رابطهای موبایل که هیچ API ندارند، ناگهان به سطوحی برنامهپذیر تبدیل میشوند.
البته این پیشرفت با هشدارهای اخلاقی همراه است. مستندات ذکر کردهاند که این ابزار قادر به تشخیص محتوای مضر در اسکرینشاتها نیست و نظارت انسانی همچنان ضروری است. از نظر لایسنس، وزنهای شناسایی آیکون تحت AGPL و مدل توصیف آیکون تحت MIT منتشر شدهاند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- مدل OmniParser V2 را در Hugging Face تست کنید تا سرعت استخراج المانها را ببینید.
- اگر توسعهدهنده هستید، OmniTool را برای اتوماسیون نرمافزارهای قدیمی (Legacy) که API ندارند امتحان کنید.
- ترکیب این ابزار با مدلهای استدلالی مانند DeepSeek R1 را برای اجرای تسکهای پیچیده در ویندوز بررسی کنید.




گفتگو