چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

منبع خبر

۲۱ خرداد ۱۴۰۵·۲۱ خرداد ۱۴۰۵۲ دقیقه مطالعه

بهبود انتقال‌پذیری حملات تخاصمی در مدل‌های پیش‌آموزش بینایی-زبان با اصلاح سوگیری خاص جانشین

اشتراک‌گذاری

اگر تصور می‌کنید مدل‌های چندوجهی شما به‌دلیل پیچیدگی معماری در برابر حملات سیاه-جعبه (Black-box Attacks) ایمن هستند، باید در این فرض تجدیدنظر کنید. پژوهشگران توانسته‌اند با حذف سوگیری‌های خاصِ مدل‌های جایگزین، نرخ انتقال حملات تخریبی را در مدل‌های VLP به‌طور چشمگیری افزایش دهند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی نقاط کور مدل‌های چندوجهی اشاره کردیم، همراستاسازی (Alignment) تصویر و متن همواره پاشنه آشیل این سامانه‌ها بوده است. در حالی که برخی پژوهش‌ها بر بهینه‌سازی این ادغام متمرکز هستند — مانند استفاده از سازوکار ادغام لایه‌های انتهایی برای کاهش محاسبات بصری در MLLMها — اما این ساختارهای پیچیده همچنان در برابر حملات تخریبی آسیب‌پذیرند. در حملات سیاه-جعبه، یک اختلال (Perturbation) روی یک مدل جایگزین (Surrogate) طراحی می‌شود تا مدل هدف را فریب دهد. اما طبق مقاله‌ای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، اکثر حملات فعلی به‌جای تمرکز بر مفاهیم معنایی تصویر، روی پاسخ‌های منحصربه‌فرد مدل جایگزین «بیش‌برازش» (Over-fit) می‌کنند و همین موضوع باعث شکست حمله در مواجهه با مدل‌های هدف با معماری متفاوت می‌شود.

برای حل این مشکل، DeBias-Attack یک استراتژی بهینه‌سازی دو-شاخه را معرفی کرده است:

شاخه اصلی (Main Branch): اختلالات را روی تصویر اصلی بهینه‌سازی می‌کند تا گرادیان تقابلی مورد نیاز برای تخریب همراستاسازی تصویر-متن تعیین شود.
شاخه مرجع (Reference Branch): یک اختلال را روی «تصویر با معنای ضعیف» (Weak-semantic image) — که از میانگین داده‌های مجموعه با نویز گاوسی ساخته شده — بهینه‌سازی می‌کند تا پاسخ‌های خاص مدل جایگزین را ایزوله کند.

به نقل از مستندات این پژوهش، DeBias-Attack پیش از به‌روزرسانی تصویر تقابلی، تصویرسازی متناظر گرادیان اصلی بر روی گرادیان مرجع را حذف می‌کند. این فرآیند با جایگزینی متنیِ متناسب با بافت (Context-aware) به پایان می‌رسد تا بیشترین میزان اختلال ایجاد شود. این نخستین حمله مبتنی بر انتقال در VLP است که تصحیح گرادیان را به‌طور اختصاصی برای سوگیری‌های مدل جایگزین پیاده‌سازی می‌کند.

این تغییر، معیار استقامت (Robustness) در مدل‌های VLP را جابه‌جا می‌کند. با اثبات اینکه سوگیری‌های مدل جایگزین را می‌توان به‌صورت ریاضی ایزوله و حذف کرد، مشخص شد که مدل‌های VLP بسیار آسیب‌پذیرتر از آن چیزی هستند که پیش‌تر تصور می‌شد. در واقع، امنیت این مدل‌ها از حالت «تکیه بر ناشناخته بودن معماری» به «نیاز به استحکام ساختاری ذاتی» تغییر جهت داده است.

گام بعدی شما

خط‌لوله‌های VLP خود را در برابر اختلالات تصحیح‌شده با گرادیان ارزیابی کنید تا میزان استقامت واقعی آن‌ها مشخص شود.
منتظر انتشار کد منبع DeBias-Attack باشید تا این آسیب‌پذیری‌ها را در محیط‌های اختصاصی خود استرس‌تست کنید.
بررسی کنید که آیا متدهای دفاعی فعلی شما صرفاً بر پایه تفاوت معماری هستند یا استحکام ذاتی دارند.

اما آیا آموزش تقابلی (Adversarial Training) می‌تواند پاسخی قطعی به این حملات باشد؟ در تحلیل آینده به بررسی متدهای دفاعی جدید خواهیم پرداخت.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

ArXiv Computer Science (cs.AI)

منبع خبر

۲۱ خرداد ۱۴۰۵·۲۱ خرداد ۱۴۰۵۲ دقیقه مطالعه

بهبود انتقال‌پذیری حملات تخاصمی در مدل‌های پیش‌آموزش بینایی-زبان با اصلاح سوگیری خاص جانشین

اشتراک‌گذاری

برای حل این مشکل، DeBias-Attack یک استراتژی بهینه‌سازی دو-شاخه را معرفی کرده است:

شاخه اصلی (Main Branch): اختلالات را روی تصویر اصلی بهینه‌سازی می‌کند تا گرادیان تقابلی مورد نیاز برای تخریب همراستاسازی تصویر-متن تعیین شود.
شاخه مرجع (Reference Branch): یک اختلال را روی «تصویر با معنای ضعیف» (Weak-semantic image) — که از میانگین داده‌های مجموعه با نویز گاوسی ساخته شده — بهینه‌سازی می‌کند تا پاسخ‌های خاص مدل جایگزین را ایزوله کند.

گام بعدی شما

خط‌لوله‌های VLP خود را در برابر اختلالات تصحیح‌شده با گرادیان ارزیابی کنید تا میزان استقامت واقعی آن‌ها مشخص شود.
منتظر انتشار کد منبع DeBias-Attack باشید تا این آسیب‌پذیری‌ها را در محیط‌های اختصاصی خود استرس‌تست کنید.
بررسی کنید که آیا متدهای دفاعی فعلی شما صرفاً بر پایه تفاوت معماری هستند یا استحکام ذاتی دارند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران