SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

اگر تصور می‌کنید فیلتر کردن خروجی‌های مدل زبانی برای تأمین امنیت کافی است، سخت در اشتباهید. باید بدانید که در محیط‌های عملیاتی، تکیه بر «راهنمایی‌های متنی» برای جلوگیری از نشت داده‌ها، در برابر حملات مهندسی‌شده به سرعت شکست می‌خورد.

طبق گزارش منتشرشده در ۹ ژوئن ۲۰۲۶ در arxiv.org، معماری SecureClaw با دستیابی به نرخ موفقیت صفر (۰٪) در حملات علیه عامل‌های هوش مصنوعی (AI Agents) در بنچمارک Agent Security Bench (ASB)، استاندارد جدیدی برای ایمنی ابزارهای هوشمند تعریف کرده است. این دستاورد نشان می‌دهد که صنعت می‌تواند از مدل‌های احتمالیِ فیلترینگ به سمت گارد‌های زیرساختی و قطعی حرکت کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، سخت‌سازی وزن‌های داخلی مدل به‌تنهایی کافی نیست، زیرا اگر زمان اجرای دستورات (Runtime) آسیب‌پذیر باشد، تمام تلاش‌های آموزشی بی‌فایده خواهد بود. به همین دلیل، SecureClaw سیستم را به دو مرز امنیتی مجزا تقسیم می‌کند:

مرز خواندن (Read Boundary): یک درگاه مورد اعتماد که متن‌های حساس را با شناسه‌های نامفهوم (Opaque Handles) و خلاصه‌های محدود جایگزین می‌کند. بدین ترتیب، مدل زبانی بزرگ (LLM) برای برنامه‌ریزی، به جای داده‌های خام، از ارجاعات نمادین استفاده می‌کند.
مرز نوشتن (Write Boundary): یک پروتکل دو مرحله‌ای «پیش‌نمایش-تأیید» (PREVIEW $
ightarrow$ COMMIT) که تضمین می‌کند تنها یک مجری مورد اعتماد بتواند درخواست‌های نهایی را بر اساس سیاست‌های سیستمی اجرا کند.

بر اساس مستندات فنی، این سیستم در ارزیابی‌های مستقیم، نرخ موفقیت حملات (ASR) را در ASB به ۰٪، در AgentDojo به ۰.۶۴٪ و در مسیرهای آسیب‌پذیر AgentLeak به ۳.۲۳٪ کاهش داده است.

تحلیل فنی این معماری حاکی از آن است که SecureClaw با مدل زبانی بزرگ نه به عنوان یک کاربر دارای سطح دسترسی بالا، بلکه به عنوان یک «برنامه‌ریز استراتژیک» برخورد می‌کند. با جداسازی نیت برنامه‌ریز از مجوزهای مجری، بارِ همراستاسازی (Alignment) کامل از دوش مدل برداشته شده و بر عهده زیرساخت قرار می‌گیرد. در واقع، معیار ایمنی از «کاهش توهمات» به «اجرای سخت‌گیرانه‌ی مجوزهای API» تغییر می‌یابد.

گام بعدی شما

بررسی مستندات SecureClaw برای پیاده‌سازی جداسازی لایه‌ی برنامه‌ریزی از لایه‌ی اجرا در عامل‌های سازمانی.
جایگزینی فیلترهای خروجی (Output Filters) با مکانیزم‌های ارجاع نمادین (Symbolic References) برای داده‌های حساس.
تحلیل اثر گلوگاه‌های انسانی در تایید نهایی دستورات پرریسک توسط عامل‌ها.

اما چالش بعدی در لایه‌ی تعامل انسان و ماشین نهفته است — به تحلیل ما درباره‌ی خستگی شناختی بازبین‌های انسانی در سیستم‌های خودکار مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مرز خواندن (Read Boundary): یک درگاه مورد اعتماد که متن‌های حساس را با شناسه‌های نامفهوم (Opaque Handles) و خلاصه‌های محدود جایگزین می‌کند. بدین ترتیب، مدل زبانی بزرگ (LLM) برای برنامه‌ریزی، به جای داده‌های خام، از ارجاعات نمادین استفاده می‌کند.
مرز نوشتن (Write Boundary): یک پروتکل دو مرحله‌ای «پیش‌نمایش-تأیید» (PREVIEW $
ightarrow$ COMMIT) که تضمین می‌کند تنها یک مجری مورد اعتماد بتواند درخواست‌های نهایی را بر اساس سیاست‌های سیستمی اجرا کند.

گام بعدی شما

بررسی مستندات SecureClaw برای پیاده‌سازی جداسازی لایه‌ی برنامه‌ریزی از لایه‌ی اجرا در عامل‌های سازمانی.
جایگزینی فیلترهای خروجی (Output Filters) با مکانیزم‌های ارجاع نمادین (Symbolic References) برای داده‌های حساس.
تحلیل اثر گلوگاه‌های انسانی در تایید نهایی دستورات پرریسک توسط عامل‌ها.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SecureClaw: توقف نشت داده‌ها در عامل‌های هوش مصنوعی با گیت‌های دو-مرزی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران