رشد سریع مدلهای بینایی-زبانی (VLMs) قابلیتهای بیسابقهای در هوش مصنوعی ایجاد کرده، اما گسترش مداوم این مدلها سطح حملهای وسیع و کنترلنشدهای را در برابر تهدیدات متخاصم آشکار ساخته است. رویکردهای فعلی حملات جیلبریک چندوجهی عمدتاً بر اختلالات سطحی پیکسلی و حملات تایپوگرافیکی یا تصاویر مضر تمرکز دارند، اما از تعامل با ساختارهای معنایی پیچیده موجود در دادههای بصری ناتوانند. این امر موجب شده سطح حمله معنایی گستردهای در تصاویر طبیعی دستنخورده باقی بماند.
برای پردهبرداری از این آسیبپذیریهای عمیق معنایی، تیمی از پژوهشگران چارچوب MemJack را معرفی کردهاند؛ یک سیستم حمله جیلبریک چندعامله تقویتشده با حافظه که بهطور صریح از معانی بصری برای هماهنگسازی حملات خودکار بهره میبرد.
{{img:0}}
MemJack از همکاری هماهنگ چندعامل برای نگاشت پویای موجودیتهای بصری به نیتهای مخرب، تولید درخواستهای متخاصم از طریق استتار معنایی-بصری چندزاویهای، و بهرهگیری از فیلتر هندسی تصویرهی تهی تکراری (INLP) برای عبور از ممانعتهای پیشگیرانه فضای نهان استفاده میکند. با انباشت و انتقال استراتژیهای موفق از طریق حافظه تجربه چندوجهی پایدار، این سیستم تعاملات حمله چنددورهای منسجمی را در تصاویر مختلف حفظ میکند.
ارزیابیهای تجربی گسترده روی تصاویر کامل و بدون تغییر COCO val2017 نشان داده که MemJack به نرخ موفقیت ۷۱.۴۸ درصد علیه Qwen3-VL-Plus دست مییابد که در شرایط بودجه گستردهتر به ۹۰ درصد میرسد. علاوه بر این، تیم تحقیقاتی قصد دارد برای تسریع تحقیقات دفاعی، مجموعه داده MemJack-Bench را شامل بیش از ۱۱۳,۰۰۰ مسیر تعاملی حمله جیلبریک چندوجهی منتشر کند تا مبنای حیاتی برای توسعه مدلهای VLMs ذاتاً مقاوم فراهم آورد.

گفتگو