اگر در حال ساخت یک عامل هوش مصنوعی برای موبایل هستید، احتمالاً با کلافهکنندگی «دکمههای نامرئی» دستوپنجه نرم کردهاید؛ همان آیکونهای ارسالی یا فلشهای بازگشتی که ابزارهای متنی آنها را نمیبینند.
در ۱۷ ژوئن ۲۰۲۶، توسعهدهندهای به نام Dexter2344 با معرفی قابلیت تطبیق الگو (Template Matching) در پروژه phone-agent، راهکاری برای عبور از این بنبست ارائه داد. این تکنیک — که شبیه به گذاشتن یک شابلون روی عکس برای پیدا کردن شکل دقیق یک قطعه است — به عامل اجازه میدهد به جای خواندن متن، پیکسلها را با تصاویر مرجع مقایسه کند تا دکمههای تصویری را «ببیند».
طبق گزارش وبسایت dev.to، اکثر عاملهای فعلی بر ابزارهای نویسهخوانی نوری (OCR) — مثل کتابخالهای که فقط متنهای چاپشده را میخواند و عکسها را نادیده میگیرد — تکیه میکنند. این محدودیت برنامهنویسان را مجبور میکند از مختصات ثابت استفاده کنند؛ ترفندی شکننده که با کوچکترین بهروزرسانی اپلیکیشن یا تغییر اندازه صفحه نمایش، از کار میافتد.
همانطور که در تحلیلهای قبلی ما دربارهی پایداری عاملهای رابط کاربری اشاره کردیم، اتکای بیش از حد به متن، نقطه ضعف اصلی این سامانههاست. حالا با ایجاد یک کتابخانه از تصاویر مرجع، عامل میتواند اسکرینشات را اسکن کرده و مرکز آیکون هدف را بهطور خودکار مکانیابی کند.
بر اساس مستندات این پروژه، کتابخانه vision.py دو مسیر اجرایی دارد:
- OpenCV: موتور اصلی برای تطبیق سریع و دقیق.
- NumPy/PIL: یک جایگزین سبک برای محیطهایی مثل Termux که نصب OpenCV در آنها دشوار است.
این سامانه برای اجرای هر «کلیک»، به سطح اطمینان ۸۰٪ نیاز دارد؛ در غیر این صورت، برای جلوگیری از خطاهای تصادفی، شکست عملیات را گزارش میکند.
برای یک توسعهدهنده، این تغییر به معنای گذار از اتوماسیون شکننده (مبتنی بر مختصات) به رویکردی بصری است. این موضوع ثابت میکند که بینایی ماشین سنتی، حتی در عصر مدلهای پیشرفته، مکمل قدرتمندی برای مدلهای چندوجهی (Multimodal) است تا عملیات ساده را با هزینه محاسباتی کمتر و دقت بیشتر انجام دهد.
گام بعدی شما
- مخزن گیتهاب پروژه phone-agent را برای بررسی تصاویر مرجع دکمههای واتساپ بررسی کنید.
- اگر از مختصات ثابت در اتوماسیون خود استفاده میکنید، کتابخانه OpenCV را برای شناسایی بصری جایگزین کنید.
- روی کاهش نرخ خطای کلیک با تنظیم آستانه اطمینان (Confidence Threshold) آزمایش کنید.
اما تأثیر این رویکرد بر کاهش مصرف باتری در دستگاههای لبه حتی جذابتر است — به تحلیل ما دربارهی رایانش لبه مراجعه کنید.




گفتگو