اگر اکنون در حال استقرار عاملهای هوش مصنوعی (AI Agents) هستید که از ابزارها استفاده میکنند، باید بدانید فیلترهای امنیتی فعلی شما یک نقطه کور بحرانی دارند. تصور کنید حملهای که نه در متن پیامها، بلکه در دل فایلهای تنظیمات و لاگهای سیستم پنهان شده و در لحظهای غیرمنتظره فعال شود.
این آسیبپذیری از چیزی به نام شکاف منشأ (Provenance Gap) نشأت میگیرد. در حالی که اکثر دفاعات فعلی بر تاریخچه گفتگو متمرکز هستند، بستر کاری (Workspace) مدل نادیده گرفته میشود. همانطور که در تحلیل قبلی ما دربارهی SafeRun و تلاش آن برای ایجاد ایمنی قطعی در برنامهریزی اشاره کردیم، متوجه شدیم که نظارت بر خروجی نهایی کافی نیست و متغیرهای محیطی میتوانند امنیت را به مخاطره بیندازند.
طبق مقالهای که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، متد جدیدی به نام تجزیهٔ قطعهقطعهشدهی بافت (Context-Fractured Decomposition یا CFD) معرفی شده است. در این حمله، درخواستهای مضر به تکههای کوچک و بیخطر تقسیم شده و در قالب فایلهای پیکربندی یا لاگهای سیستمی ذخیره میشوند. این آثار در ابتدا هیچ هشدار امنیتی ایجاد نمیکنند، اما هنگام بازسازی در مراحل بعدی گردش کار، رفتار مضر را در مدل تحریک میکنند.
یافتههای فنی کلیدی این پژوهش عبارتاند از:
- افزایش موفقیت: متد CFD نرخ موفقیت جیلبریک (Jailbreak) را تا ۲۸.۳ درصد نسبت به مدلهای پایه افزایش داد.
- دور زدن داوران: به دلیل اینکه هر تکه از داده بهتنهایی بیخطر به نظر میرسد، داوران تک-مرحلهای (Single-turn judges) هیچ هشدار امنیتی صادر نمیکنند.
- علت شکست: عدم توانایی سیستم در ردیابی منشأ و تاریخچه تغییرات هر اثر (Artifact) در طول چرخه حیات عامل.
این یافته، پارادایم امنیتی عاملهای هوش مصنوعی را از «فیلتر متنی» به «ردیابی آثار» تغییر میدهد. تحلیل ما نشان میدهد که دیگر نمیتوان به تحلیل جفتهای «پرامپت-پاسخ» اکتفا کرد؛ بلکه باید تاریخچهای قابل تأیید از نحوه ایجاد هر ورودی در محیط کاری داشته باشیم تا از ترکیبات مخرب پیشگیری کنیم.
گام بعدی شما
- پیادهسازی برچسبگذاری سلسلهمراتب منشأ (Provenance Lineage Tagging) برای تأیید منبع هر فایل.
- بازبینی بنچمارکهای امنیتی برای تست ترکیبهای متقاطع (Cross-context compositions).
- نظارت بر انتشار بنچمارکهای جدیدی که ریسکهای واسطهمحور را هدف قرار میدهند.
اما این تنها بخشی از چالشهای امنیتی است؛ برای درک نحوه مقابله با حملات تزریق پرامپت در لایههای زیرین، تحلیل ما درباره معماریهای نظارتی را بخوانید.
گفتگو