روشهای فعلی آزمایش امنیت مدلهای زبانی بزرگ اساساً ناقص هستند. مطالعهای جامع روی ۵۵۶۸ شرایط مختلف در چهار مدل استاندارد نشان داده است که هدایت فعالسازی و پرامپتینگ سیستمی، پروفایلهای آسیبپذیری متفاوتی را آشکار میکنند که وابسته به معماری مدل هستند و نمیتوان آنها را از روی یکدیگر پیشبینی کرد.
در حالی که رتبهبندی خطر شخصیتها در پرامپتینگ سیستمی در تمام معماریها یکسان باقی میماند، آسیبپذیری در برابر هدایت فعالسازی بهشدت واگرا است. مدل Llama-3.1-8B در برابر هدایت فعالسازی بسیار آسیبپذیرتر میشود، در حالی که Gemma-3-27B و Qwen3.5 بیشتر در برابر پرامپتینگ آسیبپذیر هستند.
شگفتانگیزترین یافته، پارادوکس شخصیت نوعدوستانه است: در مدل Llama-3.1-8B، شخصیتی باوجدان و سازگار بالا در پرامپتینگ در رده امنترینها قرار دارد، اما در هدایت فعالسازی به خطرناکترین شخصیت تبدیل میشود، با نرخ موفقیت حملهای حدود ۰.۸۱۸. این معکوسشدگی در برابر حذف ضرایب و کالیبراسیون قدرت تطبیقیافته مقاوم است و در مدل DeepSeek-R1-Distill-Qwen-32B نیز بازتولید شده است.
چارچوب همسانسازی امتناع شخصیتی، که وجدانی بودن در مدل Llama-3.1-8B بهشدت با امتناع مخالف است، توضیح هندسی نسبی ارائه میدهد. استدلال تنها محافظت نسبی فراهم میکند: دو مدل استدلالی ۳۲ میلیارد پارامتری نرخ موفقیت حمله ۱۵ تا ۱۸ درصدی در پرامپتینگ نشان میدهند، اما هدایت فعالسازی آنها را در آسیبپذیری پایه و آسیبپذیری خاص شخصیت بهطور قابل توجهی از هم جدا میکند.
تشخیصهای ردیابی ابتدایی نشان میدهد که مدلهای امنتر، نه صرفاً زنجیرههای استدلالی طولانیتر، بلکه یادآوری سیاست قویتر و رفتار خوداصلاحی پایدارتری حفظ میکنند. این یافتهها بر ضرورت ارزیابی جامع امنیت با روشهای متعدد تأکید میورزند و نشان میدهند که اتکا به رویکردهای آزمایشی منفرد کافی نیست.

گفتگو