اگر همین حالا یک صفحه ورود جعلی مایکروسافت را باز کنید، احتمالاً اسکنرهای امنیتی سنتی به دلیل نبود سابقه منفی در پایگاهداده، آن را «پاک» تشخیص میدهند. اما PhishVision با نگاه کردن به پیکسلها و تحلیل بصری، متوجه میشود که شما در حال مواجهه با یک کلاهبرداری هستید.
این ابزار که در ۱ ژوئیه ۲۰۲۶ عرضه شد، یک API از نوع REST است که صفحات وب را دقیقاً مشابه یک تحلیلگر انسانی بررسی میکند. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای زبانی اشاره کردیم، تکیه بر متادادهها برای شناسایی حملات مدرن کافی نیست. PhishVision این شکاف را با رندر کردن کامل صفحه و تحلیل بصری پر میکند. این رویکرد یادآور پیشرفتهای اخیر در پردازش دادههای بصری است، مشابه آنچه در قابلیتهای تبدیل فرمتهای بصری پیچیده به متن توسط DeepSeek مشاهده کردیم که دقت تحلیل محتوای تصویری را به شدت افزایش داده است.
طبق مستندات توسعهدهنده در وبسایت dev.to، این سیستم برای اجرا روی سختافزارهای محدود از یک خط لوله فنی بهینه استفاده میکند:
- Playwright Chromium: یک مرورگر بدون رابط کاربری (Headless Browser) — شبیه به مرورگری که در پسزمینه و بدون پنجره کار میکند — برای ثبت عکس JPEG و استخراج متنهای مرئی و پنهان به کار میرود.
- GPT-4o: تصویر و متن استخراجشده به این مدل چندوجهی (Multimodal) — مدلی که همزمان متن و عکس را میفهمد، مثل ما که با چند حس دنیا را میخوانیم — ارسال میشود تا یک حکم ساختاریافته در قالب JSON صادر کند.
- بهینهسازی منابع: برای کاهش مصرف پهنای باند از ۸ مگابایت به ۱ مگابایت، بارگذاری فونتها و رسانهها مسدود شده است.
- مدیریت حافظه: برای جلوگیری از کرش کردن در سرورهای با رم ۵۱۲ مگابایت، از بلوکهای
finally{}برای بستن حتمی مرورگر استفاده شده است.
یکی از حیاتیترین قابلیتهای این ابزار، شناسایی تزریق پرامپت (Prompt Injection) است. مهاجمان اکنون دستورات نامرئی — مثل متن سفید روی پسزمینه سفید — را در صفحات قرار میدهند تا عاملهای (Agents) هوش مصنوعی — برنامههایی که بهطور خودکار کارهای پیچیده را انجام میدهند — را به تسخیر درآورند. PhishVision با استخراج document.body.innerText این دستورات پنهان را میبیند و الگوهایی مثل «تمام دستورات قبلی را نادیده بگیر» را شناسایی میکند. در این میان، مهاجمان برای دور زدن سدهای امنیتی هوش مصنوعی از روشهای پیچیدهای استفاده میکنند؛ برای نمونه میتوان به شبکه گسترده Bright Data برای توزیع ترافیک استخراج دادهها اشاره کرد که لایههای حفاظتی را به چالش میکشد.
به گزارش منابع فنی، این رویکرد پارادایم امنیتی را از «آیا این URL شناخته شده است؟» به «آیا این صفحه شبیه کلاهبرداری است؟» تغییر میدهد. در واقع یک مدل بینایی به یک حسابرس امنیتی تبدیل شده که میتواند لوگوهای بیکیفیت یا پیامهای جعلی «قفل شدن حساب» را تشخیص دهد.
این سیستم با توزیع درخواستها بین Groq، GitHub Models و OpenRouter پایداری خود را حفظ کرده است. در حال حاضر میتوان این API را از طریق RapidAPI تست کرد یا پروژه را از مخزن opticparse در گیتهاب کلون کرد.
گام بعدی شما
- اگر توسعهدهنده هستید، مخزن opticparse را برای بررسی نحوه ترکیب Playwright و GPT-4o بررسی کنید.
- برای تست سریع، کلید API خود را در RapidAPI فعال کرده و چند URL مشکوک را اسکن کنید.
- استراتژیهای پنهانسازی متن در صفحات وب را بررسی کنید تا متوجه شوید چرا استخراج متن خام از رندر بصری مهمتر است.
اما لایهی سختافزاری برای اجرای این مدلها در مقیاس بالا چالشهای متفاوتی دارد — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو