اگر تصور میکنید فیلتر کردن خروجیهای مدل زبانی برای تأمین امنیت کافی است، سخت در اشتباهید. باید بدانید که در محیطهای عملیاتی، تکیه بر «راهنماییهای متنی» برای جلوگیری از نشت دادهها، در برابر حملات مهندسیشده به سرعت شکست میخورد.
طبق گزارش منتشرشده در ۹ ژوئن ۲۰۲۶ در arxiv.org، معماری SecureClaw با دستیابی به نرخ موفقیت صفر (۰٪) در حملات علیه عاملهای هوش مصنوعی (AI Agents) در بنچمارک Agent Security Bench (ASB)، استاندارد جدیدی برای ایمنی ابزارهای هوشمند تعریف کرده است. این دستاورد نشان میدهد که صنعت میتواند از مدلهای احتمالیِ فیلترینگ به سمت گاردهای زیرساختی و قطعی حرکت کند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، سختسازی وزنهای داخلی مدل بهتنهایی کافی نیست، زیرا اگر زمان اجرای دستورات (Runtime) آسیبپذیر باشد، تمام تلاشهای آموزشی بیفایده خواهد بود. به همین دلیل، SecureClaw سیستم را به دو مرز امنیتی مجزا تقسیم میکند:
- مرز خواندن (Read Boundary): یک درگاه مورد اعتماد که متنهای حساس را با شناسههای نامفهوم (Opaque Handles) و خلاصههای محدود جایگزین میکند. بدین ترتیب، مدل زبانی بزرگ (LLM) برای برنامهریزی، به جای دادههای خام، از ارجاعات نمادین استفاده میکند.
- مرز نوشتن (Write Boundary): یک پروتکل دو مرحلهای «پیشنمایش-تأیید» (PREVIEW $
ightarrow$ COMMIT) که تضمین میکند تنها یک مجری مورد اعتماد بتواند درخواستهای نهایی را بر اساس سیاستهای سیستمی اجرا کند.
بر اساس مستندات فنی، این سیستم در ارزیابیهای مستقیم، نرخ موفقیت حملات (ASR) را در ASB به ۰٪، در AgentDojo به ۰.۶۴٪ و در مسیرهای آسیبپذیر AgentLeak به ۳.۲۳٪ کاهش داده است.
تحلیل فنی این معماری حاکی از آن است که SecureClaw با مدل زبانی بزرگ نه به عنوان یک کاربر دارای سطح دسترسی بالا، بلکه به عنوان یک «برنامهریز استراتژیک» برخورد میکند. با جداسازی نیت برنامهریز از مجوزهای مجری، بارِ همراستاسازی (Alignment) کامل از دوش مدل برداشته شده و بر عهده زیرساخت قرار میگیرد. در واقع، معیار ایمنی از «کاهش توهمات» به «اجرای سختگیرانهی مجوزهای API» تغییر مییابد.
گام بعدی شما
- بررسی مستندات SecureClaw برای پیادهسازی جداسازی لایهی برنامهریزی از لایهی اجرا در عاملهای سازمانی.
- جایگزینی فیلترهای خروجی (Output Filters) با مکانیزمهای ارجاع نمادین (Symbolic References) برای دادههای حساس.
- تحلیل اثر گلوگاههای انسانی در تایید نهایی دستورات پرریسک توسط عاملها.
اما چالش بعدی در لایهی تعامل انسان و ماشین نهفته است — به تحلیل ما دربارهی خستگی شناختی بازبینهای انسانی در سیستمهای خودکار مراجعه کنید.
گفتگو