اگر تصور میکنید دادههای حساس در سیستمهای چند-عاملی (Multi-agent) امن هستند، باید بدانید که ریسک «تقویت انتشار» (Propagation Amplification) بسیار فراتر از حد تصور است. در این وضعیت، یک راز که توسط یک عامل استخراج شده، بهسرعت در بافت مشترک (Shared Context) پخش شده و در خروجیهای پاییندستی فاش میشود.
به نقل از گزارش منتشرشده در ۱۲ مه ۲۰۲۶ در arXiv، سیستم PRISM توانسته است در یک بنچمارک متخاصم با ۲,۰۰۰ وظیفه، نرخ نشت دادهها در سطح وظیفه را به ۰.۰٪ برساند. این نتیجه ثابت میکند که میتوان ریسک انتشار دادههای حساس را بدون تخریب کاربرد مدل، بهطور کامل مهار کرد.
همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، صنعت اکنون از گاردریلهای ساده به سمت امنیت سیستماتیک در جریانهای کاری عاملمحور (Agentic Workflows) حرکت میکند. PRISM برخلاف روشهای سنتی، نه پس از تولید متن، بلکه دقیقاً در مرحلهی رمزگشایی (Decoding) عمل میکند. این سیستم ۱۶ سیگنال متمایز را برای محاسبه امتیاز ریسک رصد میکند که شامل موارد زیر است:
- الگوهای شناسهدار ساختاری و واژگانی
- نشانگرهای نظریه اطلاعات، بهویژه سقوط آنتروپی (Entropy Collapse)
- افزایش تمرکز لوجیتها (Logit Concentration) در هنگام انتخاب توکن
طبق مستندات این پژوهش، این سیگنالهای زمانی پیش از آنکه یک راز بهطور کامل بازسازی شود، هشدار زودهنگام میدهند. در آزمونهای رویارویی، PRISM به امتیاز F1 معادل ۰.۸۳۲ و دقت ۱.۰۰۰ دست یافت؛ در حالی که مدل پایه Span Tagger با امتیاز ۰.۷۱۹، اجازه نشت ۱۵.۰ درصدی دادهها را میداد.
این دستاورد، پارادایم امنیتی را از «تطبیق الگوهای ایستا» به «نظارت رفتاری پویا» تغییر میدهد. برای متخصصان فنی، این موضوع ثابت میکند که «نشانه» نشت داده در توزیع احتمالی مدل، پیش از چاپ توکن ظاهر میشود. این رویکرد اجازه میدهد مداخلات جراحیگونهای صورت گیرد که کاربرد خروجی را در سطح ۰.۸۹۳ حفظ کرده و همزمان دقت را در سطح کامل نگه دارد.
گام بعدی شما
- بررسی اینکه آیا سیگنال «سقوط آنتروپی» میتواند برای شناسایی انواع دیگر توهم (Hallucination) یا تزریقهای متخاصم تعمیم یابد یا خیر.
- تست استقرار PRISM در دستههای عامل (Agent Swarms) با تأخیر بالا برای سنجش اثر سربار پردازشی بر تجربه کاربر.
اما داستان سختافزاری این تحول و مدیریت تأخیر در استنتاج حتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازیهای لایهی سختافزاری در مدلهای استدلالی مراجعه کنید.




گفتگو