اگر تصور میکنید یک پرامپت امن برای محافظت از عاملهای (Agents) هوش مصنوعی شما کافی است، در واقع در را برای یک فاجعه باز گذاشتهاید. شکاف میان یک دستور «امن» و یک توالی مخرب از فراخوانی ابزارها، دقیقترین نقطه برای نفوذ مهاجمان است.
به نقل از مقالهای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، یک فایروال جدید مبتنی بر تلهمتری طراحی شده است که «مسیرهای خوشخیم» را برای عاملهای با جریان کاری ساختاریافته اجباری میکند. طبق گزارش این پژوهش، این سیستم از یک اتوماتای متناهی معین پارامتریک (Parameterized Deterministic Finite Automata یا pDFA) استفاده میکند تا تلهمتریهای تأییدشدهی فراخوانی ابزار را به مجموعهای سختگیرانه از توالیهای مجاز و محدودههای پارامتری تبدیل کند.
این فایروال با انتقال تحلیلهای سنگین محاسباتی به حالت آفلاین، در زمان اجرا تنها به یک جستجوی وضعیت با پیچیدگی $O(1)$ نیاز دارد. نتایج بهدستآمده تکاندهنده است:
- نرخ موفقیت حمله (ASR): میانگین کلی موفقیت حملات در ۵ سناریو به ۵.۶٪ رسید که در جریانهای کاری ساختاریافته، این رقم تا ۲.۲٪ کاهش یافت.
- برتری رقابتی: این سیستم بهطور قابلتوجهی از Aegis (یک اسکنر بدون وضعیت پیشرفته) پیشی گرفت که در شرایط مشابه، نرخ موفقیت حملات در آن ۱۲.۸٪ بود.
- مناطق بدون شکست: در محیطهای ساختاریافته، این فایروال در برابر حملات چندمرحلهای و متوالی، نرخ موفقیت حمله ۰٪ را ثبت کرد.
- بهینهسازی: تأخیر هر فراخوانی به ۲.۲ میلیثانیه محدود شد که ۳.۷ برابر سریعتر از Aegis است.
همانطور که در پوشش پیشین ما از امنیت مدلهای بازمتن دیدیم، فیلترینگ سادهی ورودیها در برابر حملات پیچیده شکست میخورد و نیاز به نظارت ساختاری احساس میشود.
با این حال، پژوهشگران به یک نقطه ضعف حیاتی اشاره کردهاند. در حالی که مسیر رفتاری بهطور مؤثری سطح حمله را کاهش میدهد، سیستم همچنان در برابر حملات «جایگزینی مترادف» آسیبپذیر است و نرخ فرار ۱۸ درصدی را نشان داده است. این یعنی حتی اگر توالی اقدامات قفل شود، رشتههای متنی بهکاررفته در پارامترها همچنان به لیستهای سفید دقیق نیاز دارند تا امنیت کامل برقرار شود.
در حالی که صنعت از ابزارهای ساده به سمت جریانهای کاری عاملمحور (Agentic) حرکت میکند، باید از فیلترینگ ورودی فراتر رفته و به سمت اجرای رفتاری ساختاری حرکت کنیم. مرز بعدی احتمالاً خودکارسازی تولید pDFA برای جریانهای کاری پویا و در حال تکامل خواهد بود.
اما این امنیت ساختاری تنها نیمی از مسیر است؛ چالشهای مربوط به توهمات در لایهی استنتاج (Inference) را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی تلهمتری فراخوانی ابزارها در سیستمهای فعلی برای شناسایی الگوهای تکرارشونده.
- تست نفوذ در عاملها با استفاده از تکنیکهای جایگزینی مترادف در پارامترها.
- مطالعهی مدلهای اتوماتای متناهی برای محدود کردن مسیرهای رفتاری در محیطهای حساس.




گفتگو