تصور کنید مدلهای هوش مصنوعی بدون نیاز به نظارت انسان، خودشان متوجه شوند که کاربر در حال فریب دادن آنها برای تولید محتوای مضر است. این دیگر یک رویا نیست، بلکه دستاوردی است که میتواند معماری امنیت در مدلهای استدلالی را تغییر دهد.
در حالی که همراستاسازی (Alignment) سنتی بر حجم عظیمی از دادههای انسانی متکی است، مدلهای استدلالی (LRMs) پیچیدهتر با چالشهای جدیدی در برابر جیلبریک (Jailbreak) روبرو هستند. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای زبانی اشاره کردیم، فیلترهای خارجی معمولاً یک گام عقبتر از حملات مهندسیشده هستند و نمیتوانند منطق پنهان در درخواستهای پیچیده را درک کنند.
به نقل از گزارشی که در ۱۶ ژوئن ۲۰۲۶ در arXiv منتشر شد، روشی به نام Safe Trigger معرفی شده است. این متد از «آگاهی امنیتی نهفته» (Latent Safety Awareness) مدل استفاده میکند. طبق این گزارش، مدلهای استدلالی زمانی که درخواست اولیه را در کنار زنجیره تفکر (Chain-of-thought) خود میبینند، میتوانند ریسکهای امنیتی را بهطور ذاتی شناسایی کنند.
این چارچوب از یک فرآیند بهینهسازی دو مرحلهای بهره میبرد:
- تنظیم دقیق نظارتشده (SFT): در این مرحله، تگهای امنیتی صریحی ایجاد میشود تا تحلیل و راهنمایی امنیتی بلافاصله پس از محتوای استدلالی برای درخواستهای مضر فعال شود.
- بهینهسازی مستقیم ترجیحات (DPO): این مرحله، دقت و پایداری تحلیلهای امنیتی تولیدشده را بهبود میبخشد.
نکته کلیدی این است که تمام پاسخهای مورد استفاده برای آموزش، توسط خودِ مدلها تولید شدهاند و گرهگاه «برچسبگذاری توسط انسان» کاملاً حذف شده است. در آزمایشهای انجامشده روی مدل DeepSeek-R1-Distill-Llama-8B، نرخ موفقیت حمله (ASR) در بنچمارکهای مضر ۲۴.۶۵٪ و در جیلبریکها ۳۶.۷۲٪ کاهش یافت، در حالی که هیچ اثر منفی بر عملکرد عمومی مدل مشاهده نشد.
این دستاورد، پارادایم امنیتی را از «نظارت خارجی» به «خود-اصلاحی داخلی» منتقل میکند. با تبدیل مسیر استدلال به یک سیگنال امنیتی، مقیاسپذیری امنیت در مدلهای عظیم استدلالی اکنون به یک فرآیند محاسباتی تبدیل شده است، نه یک فرآیند متکی به نیروی کار انسانی.
گام بعدی شما
- بررسی قابلیت پیادهسازی Safe Trigger در مدلهای بسته مانند سری o1 شرکت OpenAI برای بستن شکافهای امنیتی مشابه.
- تحلیل احتمال توسعه پرامپتهای جدیدی که بتواند «آگاهی نهفته» مدل را در مرحله استدلال کور یا غیرفعال کند.
- رصد نتایج این متد در مدلهای بازمتن با مقیاس بزرگتر برای سنجش پایداری نرخ کاهش خطا.
اما این سؤال باقی میماند که آیا این روش در مدلهای چندوجهی نیز اثرگذار است؟ به تحلیل ما دربارهی امنیت مدلهای چندوجهی (Multimodal) مراجعه کنید.




گفتگو