اگر توسعهدهندهای هستید که از اصلاح مداوم اسکرپرهای شکسته بهدلیل تغییر کلاسهای CSS خسته شدهاید، Opticparse راهی برای پایان این چرخه است. در این رویکرد جدید، بهجای تحلیل کدهای HTML، لایهی بصری صفحه هدف قرار میگیرد.
اسکرپینگ وب مدتهاست که به بازی موش و گربه بین توسعهدهندگان و مالکان سایت تبدیل شده است. بسیاری از چارچوبهای مدرن، نام کلاسها را بهگونهای نامفهوم (Obfuscated) تولید میکنند که سلکتورها — مثل آدرسهای دقیق برای یافتن یک اتاق در یک ساختمان بزرگ — را غیرقابلاعتماد میکنند. طبق گزارش فنی منتشرشده در ۱۹ ژوئن ۲۰۲۶، این ابزار با تبدیل صفحه به تصویر، لایهی کد را کاملاً نادیده میگیرد تا در برابر تغییرات ساختاری مقاوم شود.
همانطور که در تحلیلهای پیشین ما دربارهی عاملهای هوش مصنوعی اشاره کردیم، جابهجایی تمرکز از کد به معنا، کلید مقیاسپذیری است. Opticparse برای این کار از یک نمونه Chromium بدون رابط گرافیکی از طریق Playwright استفاده میکند تا snapshots کاملی از صفحه بگیرد. سپس این تصاویر به یک عامل (Agent) — شبیه به کارمندی که دستورات شما را میفهمد و روی سیستم اجرا میکند — مبتنی بر مدل چندوجهی (Multimodal) — مدلی که مثل انسان همزمان متن و عکس را میفهمد — از خانواده Gemini ارسال میشود تا خروجی را در قالب JSON برگرداند. اگرچه این مدلها در پردازش بصری پیشرو هستند، اما در تعامل با ابزارهای پیچیدهتر هنوز با چالشهایی روبهرواند؛ چنانکه بررسیهای اخیر روی PhysTool-Bench، نرخ شکست بالای Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی را نشان داد.
بر اساس مستندات این ابزار، امکانات کلیدی آن عبارتند از:
- پیکربندی ابعاد Viewport (مثلاً ۱۹۲۰x۱۰۸۰) برای تحلیل طرحهای واکنشگرا (Responsive).
- مدیریت وضعیتهای بارگذاری مانند 'networkidle' یا 'domcontentloaded'.
- ارائه SDK رسمی برای JavaScript و TypeScript که استخراج داده را در کمتر از ۱۰ خط کد ممکن میکند.
در این مدل، گلوگاه توسعه از «نگهداری سلکتورها» به مهندسی پرامپت (Prompt Engineering) — یعنی هنر سؤال درست پرسیدن برای گرفتن بهترین جواب — تغییر مییابد. این یعنی کاهش شدید بدهی فنی؛ چراکه دیگر نیازی نیست هر تغییر کوچک در HTML سایت هدف را رصد کنید. این روش حتی برای استخراج داده از Shadow DOMها یا محتواهای رمزگذاریشده که پارسرهای سنتی آنها را نمیبینند، کارساز است.
گام بعدی شما
- SDK این ابزار را از طریق RapidAPI Hub تست کنید یا آن را بهصورت کانتینر Docker روی پلتفرم Render میزبانی کنید.
- برای مقایسه دقت بینایی ماشین با متدهای Regex یا CSS، آن را روی سایتهای پویا مثل Hacker News امتحان کنید.
- استراتژی استخراج دادههای خود را از «وابستگی به کد» به «وابستگی به توصیف بصری» تغییر دهید.
اما هزینههای پردازشی این مدلهای بینایی ممکن است چالش بعدی شما باشد؛ برای بهینهسازی هزینههای استنتاج، تحلیل ما دربارهی مدلهای کوچک (SLM) را بخوانید.




گفتگو