گروهی از پژوهشگران چارچوب جدیدی به نام ASGuard (مجتمع ایمنی مقیاسگذاری فعالسازی) معرفی کردهاند که برای مقابله با حملات جیلبریک هدفمند طراحی شده است. این حملات از تغییرات دستوری زبانی، بهویژه تغییر زمان فعل، برای دور زدن مکانیسمهای ایمنی در مدلهای زبانی بزرگ بهره میبرند. پژوهش منتشرشده در arXiv به آسیبپذیری بحرانی اشاره دارد که در آن مدلهای زبانی درخواستهای مضر را رد میکنند اما با بازنویسی همان درخواست به زمان گذشته، فرمان را میپذیرند.
روش کار ASGuard در سه مرحله دقیق اجرا میشود. نخست، پژوهشگران از تحلیل مداری برای شناسایی سرهای توجه خاصی استفاده میکنند که به حملات جیلبریک هدفمند، بهویژه تغییرات زمانی، مرتبط هستند. سپس، بردار مقیاسگذاری کانالمحوری آموزش میدهند تا فعالسازی این سرهای آسیبپذیر را بازکالیبره کند. در مرحله سوم، چارچوب از آنچه نویسندگان «فرمانتنظیمی پیشگیرانه» مینامند استفاده میکند و مدل را مجبور میسازد مکانیسم رد قویتری توسعه دهد که در برابر دستکاری زمانی مقاوم باشد.
اهمیت این پژوهش در رویکرد مکانیستی آن به ایمنی هوش مصنوعی نهفته است. ASGuard بهجای تکیه بر آموزش رفتاری گسترده، مدارهای عصبی زیربنایی مسئول رفتار رد را هدف قرار میدهد. تحلیل پژوهشگران نشان داد که پسوندهای خصمانه انتشار جهت میانجی رد را در فعالسازیهای داخلی مدل سرکوب میکنند — یافتهای که بینشی ملموس درباره نحوه موفقیت حملات جیلبریک در سطح اجرایی فراهم میکند.
آزمایش بر روی چهار مدل زبانی بزرگ مختلف نشان داد که ASGuard در کاهش نرخ موفقیت حملات جیلبریک هدفمند مؤثر بوده و در عین حال قابلیتهای کلی مدل حفظ شده است. نکته مهم اینکه این چارچوب «رد بیش از حد» را به حداقل میرساند — موردی که مدلها درخواستهای مشروع را بهاشتباه رد میکنند. این تعادل نشاندهنده راهحلی بهینه پارتو میان ایمنی و کارایی است.
یافتهها پارادایمی نوظهور در پژوهش ایمنی هوش مصنوعی را برجسته میکنند: بهرهگیری از قابلیت تفسیر و درک مکانیستی از درون مدلها برای توسعه روشهای هدفمند و کارآمد در تنظیم رفتار. ASGuard ارزش مداخلات جراحی در مسیرهای عصبی خاص را نشان میدهد.

گفتگو