چشم‌های جدید مایکروسافت برای هوش مصنوعی: پایان عصر APIها

تصور کنید یک عامل (Agent) هوشمند داشته باشید که برای کنترل کامپیوتر شما، نیازی به دفترچه راهنما یا دسترسی به کدهای داخلی ندارد. او فقط به صفحه نمایش نگاه می‌کند و دقیقاً می‌داند کجا را کلیک کند.

مایکروسافت (Microsoft) با انتشار OmniParser V2 در پلتفرم هاگینگ فیس (Hugging Face)، این رویا را به واقعیت نزدیک‌تر کرد. طبق مستندات این پروژه، این ابزار تصاویر خام رابط کاربری (UI) را به نقشه‌های ساختاریافته‌ای تبدیل می‌کند که مدل‌های زبانی می‌توانند بر اساس آن‌ها تصمیم بگیرند؛ آن هم بدون نیاز به دسترسی به DOM (Document Object Model).

این رویکرد در تبدیل تصاویر خام به داده‌های ساختاریافته، با تحول اخیر در پردازش اسناد نیز هم‌راستاست؛ جایی که مدل olmOCR عصر OCRهای گران‌قیمت را به پایان رسانده است.

به نقل از گزارش‌های فنی مایکروسافت، این سیستم از ترکیب دو مدل قدرتمند بهره می‌برد:

YOLOv8: برای شناسایی دقیق آیکون‌ها و نقاط قابل تعامل.
Florence-2: برای توصیف عملکرد هر المان شناسایی شده.

این مدل‌ها روی مجموعه‌ای از صفحات وب محبوب و داده‌های توصیفی آیکون‌ها تنظیم دقیق (Fine-tuning) شده‌اند تا هر نقطه کلیک‌پذیر در یک گوشی یا کامپیوتر را تشخیص دهند.

همان‌طور که در تحلیل قبلی ما درباره‌ی تکامل عامل‌های هوشمند اشاره کردیم، حذف وابستگی به APIها گام بزرگی در مسیر استقلال مدل‌هاست. اکنون دیگر نیازی نیست نرم‌افزارها اجازه دسترسی بدهند؛ هوش مصنوعی صرفاً با «دیدن» یاد می‌گیرد.

جهش عملکرد در نسخه‌ی دوم خیره‌کننده است. طبق مستندات هاگینگ فیس، تأخیر (Latency) در مقایسه با نسخه‌ی اول ۶۰٪ کاهش یافته است. این خط لوله پردازشی روی یک کارت گرافیک NVIDIA A100 به‌طور متوسط ۰.۶ ثانیه و روی یک RTX 4090 حدود ۰.۸ ثانیه زمان می‌برد. همچنین در بنچمارک ScreenSpot Pro، این مدل به دقت میانگین ۳۹.۶ درصد دست یافته است.

در کنار این ابزار، مایکروسافت چارچوب OmniTool را معرفی کرد. این ابزار به توسعه‌دهندگان اجازه می‌دهد یک ماشین مجازی ویندوز ۱۱ را با اتصال OmniParser به مدل‌های بینایی دلخواه خود کنترل کنند. مدل‌های پشتیبانی شده شامل موارد زیر است:

OpenAI (مدل‌های 4o، o1 و o3-mini)
DeepSeek (مدل R1)
Qwen (مدل 2.5VL)
Anthropic Computer Use

این معماری بسیار حیاتی است؛ زیرا اکثر ربات‌های اتوماسیون به قلاب‌های API یا تجزی‌کننده‌های HTML نیاز دارند. اما OmniParser با صفحه نمایش مانند یک تصویر برخورد می‌کند. بنابراین، نرم‌افزارهای قدیمی، ابزارهای سازمانی بسته و رابط‌های موبایل که هیچ API ندارند، ناگهان به سطوحی برنامه‌پذیر تبدیل می‌شوند.

البته این پیشرفت با هشدارهای اخلاقی همراه است. مستندات ذکر کرده‌اند که این ابزار قادر به تشخیص محتوای مضر در اسکرین‌شات‌ها نیست و نظارت انسانی همچنان ضروری است. از نظر لایسنس، وزن‌های شناسایی آیکون تحت AGPL و مدل توصیف آیکون تحت MIT منتشر شده‌اند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

مدل OmniParser V2 را در Hugging Face تست کنید تا سرعت استخراج المان‌ها را ببینید.
اگر توسعه‌دهنده هستید، OmniTool را برای اتوماسیون نرم‌افزارهای قدیمی (Legacy) که API ندارند امتحان کنید.
ترکیب این ابزار با مدل‌های استدلالی مانند DeepSeek R1 را برای اجرای تسک‌های پیچیده در ویندوز بررسی کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به نقل از گزارش‌های فنی مایکروسافت، این سیستم از ترکیب دو مدل قدرتمند بهره می‌برد:

YOLOv8: برای شناسایی دقیق آیکون‌ها و نقاط قابل تعامل.
Florence-2: برای توصیف عملکرد هر المان شناسایی شده.

OpenAI (مدل‌های 4o، o1 و o3-mini)
DeepSeek (مدل R1)
Qwen (مدل 2.5VL)
Anthropic Computer Use

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

مدل OmniParser V2 را در Hugging Face تست کنید تا سرعت استخراج المان‌ها را ببینید.
اگر توسعه‌دهنده هستید، OmniTool را برای اتوماسیون نرم‌افزارهای قدیمی (Legacy) که API ندارند امتحان کنید.
ترکیب این ابزار با مدل‌های استدلالی مانند DeepSeek R1 را برای اجرای تسک‌های پیچیده در ویندوز بررسی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چشم‌های جدید مایکروسافت برای هوش مصنوعی: پایان عصر APIها

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چشم‌های جدید مایکروسافت برای هوش مصنوعی: پایان عصر APIها

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چشم‌های جدید مایکروسافت برای هوش مصنوعی: پایان عصر APIها

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چشم‌های جدید مایکروسافت برای هوش مصنوعی: پایان عصر APIها

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران