بینایی ماشین در برابر کدهای CSS برای استخراج ساختاریافتهٔ وب

اگر توسعه‌دهنده‌ای هستید که از اصلاح مداوم اسکرپرهای شکسته به‌دلیل تغییر کلاس‌های CSS خسته شده‌اید، Opticparse راهی برای پایان این چرخه است. در این رویکرد جدید، به‌جای تحلیل کدهای HTML، لایه‌ی بصری صفحه هدف قرار می‌گیرد.

اسکرپینگ وب مدت‌هاست که به بازی موش و گربه بین توسعه‌دهندگان و مالکان سایت تبدیل شده است. بسیاری از چارچوب‌های مدرن، نام کلاس‌ها را به‌گونه‌ای نامفهوم (Obfuscated) تولید می‌کنند که سلکتورها — مثل آدرس‌های دقیق برای یافتن یک اتاق در یک ساختمان بزرگ — را غیرقابل‌اعتماد می‌کنند. طبق گزارش فنی منتشرشده در ۱۹ ژوئن ۲۰۲۶، این ابزار با تبدیل صفحه به تصویر، لایه‌ی کد را کاملاً نادیده می‌گیرد تا در برابر تغییرات ساختاری مقاوم شود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی عامل‌های هوش مصنوعی اشاره کردیم، جابه‌جایی تمرکز از کد به معنا، کلید مقیاس‌پذیری است. Opticparse برای این کار از یک نمونه Chromium بدون رابط گرافیکی از طریق Playwright استفاده می‌کند تا snapshots کاملی از صفحه بگیرد. سپس این تصاویر به یک عامل (Agent) — شبیه به کارمندی که دستورات شما را می‌فهمد و روی سیستم اجرا می‌کند — مبتنی بر مدل چندوجهی (Multimodal) — مدلی که مثل انسان هم‌زمان متن و عکس را می‌فهمد — از خانواده Gemini ارسال می‌شود تا خروجی را در قالب JSON برگرداند. اگرچه این مدل‌ها در پردازش بصری پیشرو هستند، اما در تعامل با ابزارهای پیچیده‌تر هنوز با چالش‌هایی رو‌به‌رو‌اند؛ چنان‌که بررسی‌های اخیر روی PhysTool-Bench، نرخ شکست بالای Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی را نشان داد.

بر اساس مستندات این ابزار، امکانات کلیدی آن عبارتند از:

پیکربندی ابعاد Viewport (مثلاً ۱۹۲۰x۱۰۸۰) برای تحلیل طرح‌های واکنش‌گرا (Responsive).
مدیریت وضعیت‌های بارگذاری مانند 'networkidle' یا 'domcontentloaded'.
ارائه SDK رسمی برای JavaScript و TypeScript که استخراج داده را در کمتر از ۱۰ خط کد ممکن می‌کند.

در این مدل، گلوگاه توسعه از «نگهداری سلکتورها» به مهندسی پرامپت (Prompt Engineering) — یعنی هنر سؤال درست پرسیدن برای گرفتن بهترین جواب — تغییر می‌یابد. این یعنی کاهش شدید بدهی فنی؛ چراکه دیگر نیازی نیست هر تغییر کوچک در HTML سایت هدف را رصد کنید. این روش حتی برای استخراج داده از Shadow DOMها یا محتواهای رمزگذاری‌شده که پارسرهای سنتی آن‌ها را نمی‌بینند، کارساز است.

گام بعدی شما

SDK این ابزار را از طریق RapidAPI Hub تست کنید یا آن را به‌صورت کانتینر Docker روی پلتفرم Render میزبانی کنید.
برای مقایسه دقت بینایی ماشین با متدهای Regex یا CSS، آن را روی سایت‌های پویا مثل Hacker News امتحان کنید.
استراتژی استخراج داده‌های خود را از «وابستگی به کد» به «وابستگی به توصیف بصری» تغییر دهید.

اما هزینه‌های پردازشی این مدل‌های بینایی ممکن است چالش بعدی شما باشد؛ برای بهینه‌سازی هزینه‌های استنتاج، تحلیل ما درباره‌ی مدل‌های کوچک (SLM) را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات این ابزار، امکانات کلیدی آن عبارتند از:

پیکربندی ابعاد Viewport (مثلاً ۱۹۲۰x۱۰۸۰) برای تحلیل طرح‌های واکنش‌گرا (Responsive).
مدیریت وضعیت‌های بارگذاری مانند 'networkidle' یا 'domcontentloaded'.
ارائه SDK رسمی برای JavaScript و TypeScript که استخراج داده را در کمتر از ۱۰ خط کد ممکن می‌کند.

گام بعدی شما

SDK این ابزار را از طریق RapidAPI Hub تست کنید یا آن را به‌صورت کانتینر Docker روی پلتفرم Render میزبانی کنید.
برای مقایسه دقت بینایی ماشین با متدهای Regex یا CSS، آن را روی سایت‌های پویا مثل Hacker News امتحان کنید.
استراتژی استخراج داده‌های خود را از «وابستگی به کد» به «وابستگی به توصیف بصری» تغییر دهید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بینایی ماشین در برابر کدهای CSS برای استخراج ساختاریافتهٔ وب

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بینایی ماشین در برابر کدهای CSS برای استخراج ساختاریافتهٔ وب

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بینایی ماشین در برابر کدهای CSS برای استخراج ساختاریافتهٔ وب

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بینایی ماشین در برابر کدهای CSS برای استخراج ساختاریافتهٔ وب

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران