اگر تصور میکنید مدلهای چندوجهی شما بهدلیل پیچیدگی معماری در برابر حملات سیاه-جعبه (Black-box Attacks) ایمن هستند، باید در این فرض تجدیدنظر کنید. پژوهشگران توانستهاند با حذف سوگیریهای خاصِ مدلهای جایگزین، نرخ انتقال حملات تخریبی را در مدلهای VLP بهطور چشمگیری افزایش دهند.
همانطور که در تحلیلهای پیشین ما دربارهی نقاط کور مدلهای چندوجهی اشاره کردیم، همراستاسازی (Alignment) تصویر و متن همواره پاشنه آشیل این سامانهها بوده است. در حالی که برخی پژوهشها بر بهینهسازی این ادغام متمرکز هستند — مانند استفاده از سازوکار ادغام لایههای انتهایی برای کاهش محاسبات بصری در MLLMها — اما این ساختارهای پیچیده همچنان در برابر حملات تخریبی آسیبپذیرند. در حملات سیاه-جعبه، یک اختلال (Perturbation) روی یک مدل جایگزین (Surrogate) طراحی میشود تا مدل هدف را فریب دهد. اما طبق مقالهای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، اکثر حملات فعلی بهجای تمرکز بر مفاهیم معنایی تصویر، روی پاسخهای منحصربهفرد مدل جایگزین «بیشبرازش» (Over-fit) میکنند و همین موضوع باعث شکست حمله در مواجهه با مدلهای هدف با معماری متفاوت میشود.
برای حل این مشکل، DeBias-Attack یک استراتژی بهینهسازی دو-شاخه را معرفی کرده است:
- شاخه اصلی (Main Branch): اختلالات را روی تصویر اصلی بهینهسازی میکند تا گرادیان تقابلی مورد نیاز برای تخریب همراستاسازی تصویر-متن تعیین شود.
- شاخه مرجع (Reference Branch): یک اختلال را روی «تصویر با معنای ضعیف» (Weak-semantic image) — که از میانگین دادههای مجموعه با نویز گاوسی ساخته شده — بهینهسازی میکند تا پاسخهای خاص مدل جایگزین را ایزوله کند.
به نقل از مستندات این پژوهش، DeBias-Attack پیش از بهروزرسانی تصویر تقابلی، تصویرسازی متناظر گرادیان اصلی بر روی گرادیان مرجع را حذف میکند. این فرآیند با جایگزینی متنیِ متناسب با بافت (Context-aware) به پایان میرسد تا بیشترین میزان اختلال ایجاد شود. این نخستین حمله مبتنی بر انتقال در VLP است که تصحیح گرادیان را بهطور اختصاصی برای سوگیریهای مدل جایگزین پیادهسازی میکند.
این تغییر، معیار استقامت (Robustness) در مدلهای VLP را جابهجا میکند. با اثبات اینکه سوگیریهای مدل جایگزین را میتوان بهصورت ریاضی ایزوله و حذف کرد، مشخص شد که مدلهای VLP بسیار آسیبپذیرتر از آن چیزی هستند که پیشتر تصور میشد. در واقع، امنیت این مدلها از حالت «تکیه بر ناشناخته بودن معماری» به «نیاز به استحکام ساختاری ذاتی» تغییر جهت داده است.
گام بعدی شما
- خطلولههای VLP خود را در برابر اختلالات تصحیحشده با گرادیان ارزیابی کنید تا میزان استقامت واقعی آنها مشخص شود.
- منتظر انتشار کد منبع DeBias-Attack باشید تا این آسیبپذیریها را در محیطهای اختصاصی خود استرستست کنید.
- بررسی کنید که آیا متدهای دفاعی فعلی شما صرفاً بر پایه تفاوت معماری هستند یا استحکام ذاتی دارند.
اما آیا آموزش تقابلی (Adversarial Training) میتواند پاسخی قطعی به این حملات باشد؟ در تحلیل آینده به بررسی متدهای دفاعی جدید خواهیم پرداخت.



گفتگو