تست امنیت LLM: چرا به هر دو روش پرامپتینگ و هدایت فعال‌سازی نیاز است

روش‌های فعلی آزمایش امنیت مدل‌های زبانی بزرگ اساساً ناقص هستند. مطالعه‌ای جامع روی ۵۵۶۸ شرایط مختلف در چهار مدل استاندارد نشان داده است که هدایت فعال‌سازی و پرامپتینگ سیستمی، پروفایل‌های آسیب‌پذیری متفاوتی را آشکار می‌کنند که وابسته به معماری مدل هستند و نمی‌توان آن‌ها را از روی یکدیگر پیش‌بینی کرد.

در حالی که رتبه‌بندی خطر شخصیت‌ها در پرامپتینگ سیستمی در تمام معماری‌ها یکسان باقی می‌ماند، آسیب‌پذیری در برابر هدایت فعال‌سازی به‌شدت واگرا است. مدل Llama-3.1-8B در برابر هدایت فعال‌سازی بسیار آسیب‌پذیرتر می‌شود، در حالی که Gemma-3-27B و Qwen3.5 بیشتر در برابر پرامپتینگ آسیب‌پذیر هستند.

شگفت‌انگیزترین یافته، پارادوکس شخصیت نوع‌دوستانه است: در مدل Llama-3.1-8B، شخصیتی باوجدان و سازگار بالا در پرامپتینگ در رده امن‌ترین‌ها قرار دارد، اما در هدایت فعال‌سازی به خطرناک‌ترین شخصیت تبدیل می‌شود، با نرخ موفقیت حمله‌ای حدود ۰.۸۱۸. این معکوس‌شدگی در برابر حذف ضرایب و کالیبراسیون قدرت تطبیق‌یافته مقاوم است و در مدل DeepSeek-R1-Distill-Qwen-32B نیز بازتولید شده است.

چارچوب همسان‌سازی امتناع شخصیتی، که وجدانی بودن در مدل Llama-3.1-8B به‌شدت با امتناع مخالف است، توضیح هندسی نسبی ارائه می‌دهد. استدلال تنها محافظت نسبی فراهم می‌کند: دو مدل استدلالی ۳۲ میلیارد پارامتری نرخ موفقیت حمله ۱۵ تا ۱۸ درصدی در پرامپتینگ نشان می‌دهند، اما هدایت فعال‌سازی آن‌ها را در آسیب‌پذیری پایه و آسیب‌پذیری خاص شخصیت به‌طور قابل توجهی از هم جدا می‌کند.

تشخیص‌های ردیابی ابتدایی نشان می‌دهد که مدل‌های امن‌تر، نه صرفاً زنجیره‌های استدلالی طولانی‌تر، بلکه یادآوری سیاست قوی‌تر و رفتار خوداصلاحی پایدارتری حفظ می‌کنند. این یافته‌ها بر ضرورت ارزیابی جامع امنیت با روش‌های متعدد تأکید می‌ورزند و نشان می‌دهند که اتکا به رویکردهای آزمایشی منفرد کافی نیست.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تست امنیت LLM: چرا به هر دو روش پرامپتینگ و هدایت فعال‌سازی نیاز است

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تست امنیت LLM: چرا به هر دو روش پرامپتینگ و هدایت فعال‌سازی نیاز است

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تست امنیت LLM: چرا به هر دو روش پرامپتینگ و هدایت فعال‌سازی نیاز است

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تست امنیت LLM: چرا به هر دو روش پرامپتینگ و هدایت فعال‌سازی نیاز است

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران