فیلترهای امنیتی مدل شما احتمالاً یک توهم است. اگر برای سنجش استحکام مدل خود تنها به نرخ موفقیت حملات تکیه میکنید، در واقع در حال تماشای نمایشی هستید که حقیقت را میپوشاند.
در ۷ مه ۲۰۲۶، تیمی از پژوهشگران شامل فییو ژو (Feiyue Xu) و هونگشنگ هو (Hongsheng Hu)، مقالهای جامع را در arxiv.org منتشر کردند. به نقل از این گزارش، نویسندگان چارچوبی به نام مکعب امنیتی (Security Cube) را معرفی کردهاند تا معیارهای تکبعدی و ناکارآمد فعلی را با یک دیدگاه جامع جایگزین کنند.
بر اساس مستندات این پژوهش، تیم تحقیق برای ترسیم نقشهی آسیبپذیریهای مدل زبانی بزرگ (Large Language Model - LLM)، بنچمارکهای گستردهای را اجرا کردند که بر دو محور اصلی متمرکز بود:
- بردارهای حمله: ارزیابی ۱۳ مورد از شاخصترین حملات جیلبریک (Jailbreak Attacks) که مدلها را مجبور به تولید محتوای مضر یا نقض سیاستهای امنیتی میکنند.
- مکانیزمهای دفاعی: آزمایش ۵ مورد از برجستهترین دفاعها برای تعیین کارایی واقعی آنها در کاربردهای حساس.
یافتهی کلیدی این است که روشهای ارزیابی فعلی اساساً معیوب هستند. اکثر توسعهدهندگان بر «نرخ موفقیت حمله» تکیه میکنند؛ اما نویسندگان استدلال میکنند که این عدد نمیتواند پیچیدگی شکست مدلها تحت فشار را توصیف کند. با استفاده از مکعب امنیتی، پژوهشگران توانستند مشکلات حلنشده در نحوه قضاوت داوران خودکار دربارهی امنیت هوش مصنوعی زاینده (Generative AI) را شناسایی کنند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، تکیه بر لایههای دفاعی سطحی هرگز تضمینی برای ایمنی نیست. این پژوهش در زمانی منتشر میشود که جامعهی AI با چالشهای سختگیرانهی رگولاتوری و کاهش اعتماد به مدلهای پیشرو دستوپنجه نرم میکند.
هدف این مطالعه، حرکت به سمت سیستمهایی است که تفسیرپذیرتر و قابلاعتمادتر باشند. اما این تنها آغاز ماجراست؛ گذار از «تشخیص حملات» به «تضمینهای ریاضیاتی امنیت»، موج بعدی تحولات در این حوزه خواهد بود.
گام بعدی شما
- اگر از مدلهای LLM در محیط تولید (Production) استفاده میکنید، ارزیابیهای خود را از نرخ موفقیت ساده به تحلیلهای چندبعدی تغییر دهید.
- مستندات Security Cube را برای شناسایی بردارهای حملهای که احتمالاً نادیده گرفتهاید، بررسی کنید.
- استراتژیهای دفاعی خود را با متدهای جدید معرفی شده در این مقاله بهروزرسانی کنید.




گفتگو