گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

تصور کنید مدل‌های هوش مصنوعی بدون نیاز به نظارت انسان، خودشان متوجه شوند که کاربر در حال فریب دادن آن‌ها برای تولید محتوای مضر است. این دیگر یک رویا نیست، بلکه دستاوردی است که می‌تواند معماری امنیت در مدل‌های استدلالی را تغییر دهد.

در حالی که همراستاسازی (Alignment) سنتی بر حجم عظیمی از داده‌های انسانی متکی است، مدل‌های استدلالی (LRMs) پیچیده‌تر با چالش‌های جدیدی در برابر جیل‌بریک (Jailbreak) روبرو هستند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های زبانی اشاره کردیم، فیلترهای خارجی معمولاً یک گام عقب‌تر از حملات مهندسی‌شده هستند و نمی‌توانند منطق پنهان در درخواست‌های پیچیده را درک کنند.

به نقل از گزارشی که در ۱۶ ژوئن ۲۰۲۶ در arXiv منتشر شد، روشی به نام Safe Trigger معرفی شده است. این متد از «آگاهی امنیتی نهفته» (Latent Safety Awareness) مدل استفاده می‌کند. طبق این گزارش، مدل‌های استدلالی زمانی که درخواست اولیه را در کنار زنجیره تفکر (Chain-of-thought) خود می‌بینند، می‌توانند ریسک‌های امنیتی را به‌طور ذاتی شناسایی کنند.

این چارچوب از یک فرآیند بهینه‌سازی دو مرحله‌ای بهره می‌برد:

تنظیم دقیق نظارت‌شده (SFT): در این مرحله، تگ‌های امنیتی صریحی ایجاد می‌شود تا تحلیل و راهنمایی امنیتی بلافاصله پس از محتوای استدلالی برای درخواست‌های مضر فعال شود.
بهینه‌سازی مستقیم ترجیحات (DPO): این مرحله، دقت و پایداری تحلیل‌های امنیتی تولیدشده را بهبود می‌بخشد.

نکته کلیدی این است که تمام پاسخ‌های مورد استفاده برای آموزش، توسط خودِ مدل‌ها تولید شده‌اند و گره‌گاه «برچسب‌گذاری توسط انسان» کاملاً حذف شده است. در آزمایش‌های انجام‌شده روی مدل DeepSeek-R1-Distill-Llama-8B، نرخ موفقیت حمله (ASR) در بنچمارک‌های مضر ۲۴.۶۵٪ و در جیل‌بریک‌ها ۳۶.۷۲٪ کاهش یافت، در حالی که هیچ اثر منفی بر عملکرد عمومی مدل مشاهده نشد.

این دستاورد، پارادایم امنیتی را از «نظارت خارجی» به «خود-اصلاحی داخلی» منتقل می‌کند. با تبدیل مسیر استدلال به یک سیگنال امنیتی، مقیاس‌پذیری امنیت در مدل‌های عظیم استدلالی اکنون به یک فرآیند محاسباتی تبدیل شده است، نه یک فرآیند متکی به نیروی کار انسانی.

گام بعدی شما

بررسی قابلیت پیاده‌سازی Safe Trigger در مدل‌های بسته مانند سری o1 شرکت OpenAI برای بستن شکاف‌های امنیتی مشابه.
تحلیل احتمال توسعه پرامپت‌های جدیدی که بتواند «آگاهی نهفته» مدل را در مرحله استدلال کور یا غیرفعال کند.
رصد نتایج این متد در مدل‌های بازمتن با مقیاس بزرگتر برای سنجش پایداری نرخ کاهش خطا.

اما این سؤال باقی می‌ماند که آیا این روش در مدل‌های چندوجهی نیز اثرگذار است؟ به تحلیل ما درباره‌ی امنیت مدل‌های چندوجهی (Multimodal) مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این چارچوب از یک فرآیند بهینه‌سازی دو مرحله‌ای بهره می‌برد:

تنظیم دقیق نظارت‌شده (SFT): در این مرحله، تگ‌های امنیتی صریحی ایجاد می‌شود تا تحلیل و راهنمایی امنیتی بلافاصله پس از محتوای استدلالی برای درخواست‌های مضر فعال شود.
بهینه‌سازی مستقیم ترجیحات (DPO): این مرحله، دقت و پایداری تحلیل‌های امنیتی تولیدشده را بهبود می‌بخشد.

گام بعدی شما

بررسی قابلیت پیاده‌سازی Safe Trigger در مدل‌های بسته مانند سری o1 شرکت OpenAI برای بستن شکاف‌های امنیتی مشابه.
تحلیل احتمال توسعه پرامپت‌های جدیدی که بتواند «آگاهی نهفته» مدل را در مرحله استدلال کور یا غیرفعال کند.
رصد نتایج این متد در مدل‌های بازمتن با مقیاس بزرگتر برای سنجش پایداری نرخ کاهش خطا.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: کاهش ۳۶ درصدی موفقیت جیل‌بریک در مدل‌های استدلالی با متد Safe

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران