گزارش PhishVision: جایگزینی تحلیل بصری با لیست‌های سیاه در شناسایی فیشینگ

اگر همین حالا یک صفحه ورود جعلی مایکروسافت را باز کنید، احتمالاً اسکنرهای امنیتی سنتی به دلیل نبود سابقه منفی در پایگاه‌داده، آن را «پاک» تشخیص می‌دهند. اما PhishVision با نگاه کردن به پیکسل‌ها و تحلیل بصری، متوجه می‌شود که شما در حال مواجهه با یک کلاهبرداری هستید.

این ابزار که در ۱ ژوئیه ۲۰۲۶ عرضه شد، یک API از نوع REST است که صفحات وب را دقیقاً مشابه یک تحلیلگر انسانی بررسی می‌کند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های زبانی اشاره کردیم، تکیه بر متاداده‌ها برای شناسایی حملات مدرن کافی نیست. PhishVision این شکاف را با رندر کردن کامل صفحه و تحلیل بصری پر می‌کند. این رویکرد یادآور پیشرفت‌های اخیر در پردازش داده‌های بصری است، مشابه آنچه در قابلیت‌های تبدیل فرمت‌های بصری پیچیده به متن توسط DeepSeek مشاهده کردیم که دقت تحلیل محتوای تصویری را به شدت افزایش داده است.

طبق مستندات توسعه‌دهنده در وب‌سایت dev.to، این سیستم برای اجرا روی سخت‌افزارهای محدود از یک خط لوله فنی بهینه استفاده می‌کند:

Playwright Chromium: یک مرورگر بدون رابط کاربری (Headless Browser) — شبیه به مرورگری که در پس‌زمینه و بدون پنجره کار می‌کند — برای ثبت عکس JPEG و استخراج متن‌های مرئی و پنهان به کار می‌رود.
GPT-4o: تصویر و متن استخراج‌شده به این مدل چندوجهی (Multimodal) — مدلی که هم‌زمان متن و عکس را می‌فهمد، مثل ما که با چند حس دنیا را می‌خوانیم — ارسال می‌شود تا یک حکم ساختاریافته در قالب JSON صادر کند.
بهینه‌سازی منابع: برای کاهش مصرف پهنای باند از ۸ مگابایت به ۱ مگابایت، بارگذاری فونت‌ها و رسانه‌ها مسدود شده است.
مدیریت حافظه: برای جلوگیری از کرش کردن در سرورهای با رم ۵۱۲ مگابایت، از بلوک‌های finally{} برای بستن حتمی مرورگر استفاده شده است.

یکی از حیاتی‌ترین قابلیت‌های این ابزار، شناسایی تزریق پرامپت (Prompt Injection) است. مهاجمان اکنون دستورات نامرئی — مثل متن سفید روی پس‌زمینه سفید — را در صفحات قرار می‌دهند تا عامل‌های (Agents) هوش مصنوعی — برنامه‌هایی که به‌طور خودکار کارهای پیچیده را انجام می‌دهند — را به تسخیر درآورند. PhishVision با استخراج document.body.innerText این دستورات پنهان را می‌بیند و الگوهایی مثل «تمام دستورات قبلی را نادیده بگیر» را شناسایی می‌کند. در این میان، مهاجمان برای دور زدن سدهای امنیتی هوش مصنوعی از روش‌های پیچیده‌ای استفاده می‌کنند؛ برای نمونه می‌توان به شبکه گسترده Bright Data برای توزیع ترافیک استخراج داده‌ها اشاره کرد که لایه‌های حفاظتی را به چالش می‌کشد.

به گزارش منابع فنی، این رویکرد پارادایم امنیتی را از «آیا این URL شناخته شده است؟» به «آیا این صفحه شبیه کلاهبرداری است؟» تغییر می‌دهد. در واقع یک مدل بینایی به یک حسابرس امنیتی تبدیل شده که می‌تواند لوگوهای بی‌کیفیت یا پیام‌های جعلی «قفل شدن حساب» را تشخیص دهد.

این سیستم با توزیع درخواست‌ها بین Groq، GitHub Models و OpenRouter پایداری خود را حفظ کرده است. در حال حاضر می‌توان این API را از طریق RapidAPI تست کرد یا پروژه را از مخزن opticparse در گیت‌هاب کلون کرد.

گام بعدی شما

اگر توسعه‌دهنده هستید، مخزن opticparse را برای بررسی نحوه ترکیب Playwright و GPT-4o بررسی کنید.
برای تست سریع، کلید API خود را در RapidAPI فعال کرده و چند URL مشکوک را اسکن کنید.
استراتژی‌های پنهان‌سازی متن در صفحات وب را بررسی کنید تا متوجه شوید چرا استخراج متن خام از رندر بصری مهم‌تر است.

اما لایه‌ی سخت‌افزاری برای اجرای این مدل‌ها در مقیاس بالا چالش‌های متفاوتی دارد — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Playwright Chromium: یک مرورگر بدون رابط کاربری (Headless Browser) — شبیه به مرورگری که در پس‌زمینه و بدون پنجره کار می‌کند — برای ثبت عکس JPEG و استخراج متن‌های مرئی و پنهان به کار می‌رود.
GPT-4o: تصویر و متن استخراج‌شده به این مدل چندوجهی (Multimodal) — مدلی که هم‌زمان متن و عکس را می‌فهمد، مثل ما که با چند حس دنیا را می‌خوانیم — ارسال می‌شود تا یک حکم ساختاریافته در قالب JSON صادر کند.
بهینه‌سازی منابع: برای کاهش مصرف پهنای باند از ۸ مگابایت به ۱ مگابایت، بارگذاری فونت‌ها و رسانه‌ها مسدود شده است.
مدیریت حافظه: برای جلوگیری از کرش کردن در سرورهای با رم ۵۱۲ مگابایت، از بلوک‌های finally{} برای بستن حتمی مرورگر استفاده شده است.

گام بعدی شما

اگر توسعه‌دهنده هستید، مخزن opticparse را برای بررسی نحوه ترکیب Playwright و GPT-4o بررسی کنید.
برای تست سریع، کلید API خود را در RapidAPI فعال کرده و چند URL مشکوک را اسکن کنید.
استراتژی‌های پنهان‌سازی متن در صفحات وب را بررسی کنید تا متوجه شوید چرا استخراج متن خام از رندر بصری مهم‌تر است.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش PhishVision: جایگزینی تحلیل بصری با لیست‌های سیاه در شناسایی فیشینگ

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش PhishVision: جایگزینی تحلیل بصری با لیست‌های سیاه در شناسایی فیشینگ

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش PhishVision: جایگزینی تحلیل بصری با لیست‌های سیاه در شناسایی فیشینگ

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش PhishVision: جایگزینی تحلیل بصری با لیست‌های سیاه در شناسایی فیشینگ

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران