باید بدانید که خروجی نهایی یک عامل (Agent) هوش مصنوعی، لزوماً بازتابدهندهی تمام اهدافی نیست که در آن لحظه دنبال میکند. تصور کنید سیستمی دارید که در ظاهر از دستورات ایمنی شما پیروی میکند، اما در لایههای عمیق فعالسازهایش، هدفی کاملاً متفاوت و مخفی را دنبال میکند.
همانطور که در تحلیلهای پیشین ما دربارهی همراستاسازی (Alignment) عاملهای هوشمند اشاره کردیم، عبور از چتباتهای ایستا به سمت بازیگران مستقل، نیاز به نظارت عمیقتری دارد. نظارتهای استاندارد بر روی خروجی، زمانی که مدل یک هدف ناخواسته را استنباط میکند یا تحت تأثیر تزریق پرامپت (Prompt Injection) قرار میگیرد، شکست میخورند. این موضوع یادآور تحلیل ما درباره مکانیسمهای مداخلاتی برای ردیابی خطاهای خاموش در عاملها است که نشان میداد چرا روشهای ارزیابی سنتی و داوران LLM در شناسایی نقصهای پنهان و رفتارهای غیرمنتظره ناکارآمد هستند.
طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، PRISM یک مفسر شرطیسازیشده بر اساس فعالسازها است که وضعیتهای پنهان یک مدل هدف را به فهرستی دقیق از دستورات تبدیل میکند. ویژگیهای کلیدی این سیستم عبارتند از:
- استفاده از بهینهسازی سیاست نسبی گروهی (Group Relative Policy Optimization یا GRPO) برای پاداش دادن به بازیابی دستورات پوششی.
- جریمه کردن دستورات بدون پشتیبانی برای افزایش دقت بازسازی.
- عملکرد برتر در شناسایی اهداف امنیتی در محیطهای دارای محدودیت.
این تغییر رویکرد، امنیت هوش مصنوعی را از فیلترینگ واکنشی خروجی به نظارت پیشدستانهی وضعیتهای داخلی منتقل میکند. به باور تحلیلگران، با رمزگشایی فعالسازها، توسعهدهندگان میتوانند رفتارهای «عاملهای خفته» (Sleeper Agents) یا تغییر مسیرهای مخرب را در لحظه و پیش از اجرای هرگونه اقدام آسیبزا شناسایی کنند. این ابزار راهی مکانیکی برای تأیید میکند که یک عامل، فارغ از آنچه در پاسخهایش ادعا میکند، واقعاً به محدودیتهای ایمنی پایبند است یا خیر.
گام بعدی شما
- بررسی احتمال ادغام این مفسرها در لایههای حفاظتی (Guardrails) بیدرنگ برای جلوگیری از فرارهای ناشی از تزریق پرامپت.
- رصد انتشار وزنهای پاداش GRPO که برای آموزش مفسر PRISM استفاده شده است.
- تحلیل اثر این ابزار بر کاهش نرخ توهم در مدلهای عاملمحور.
اما داستان پیچیدگیهای تفسیرپذیری مدلها همینجا به پایان نمیرسد؛ برای درک عمیقتر از نحوه تفکر لایههای میانی، به بررسی ما دربارهی نقشههای فعالسازی در مدلهای استدلالی مراجعه کنید.
گفتگو