دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

اگر برای تأمین امنیت عامل‌های هوشمند خود تنها به بازبینی استاتیک کد اکتفا کرده‌اید، باید بدانید که یک نقطه کور خطرناک را نادیده می‌گیرید. تحلیل‌های سنتی نمی‌توانند مهارت‌های مخربی را که تنها در شرایط خاص زمان اجرا فعال می‌شوند، شناسایی کنند.

به نقل از مقاله‌ای که در ۱۱ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، بازبینی‌های متداول بسیار شکننده هستند؛ زیرا منطق آسیب‌رسان اغلب پشت مستندات بی‌ضرر پنهان می‌شود و تنها زمانی فعال می‌گردد که با درخواست‌های خاص کاربر یا دارایی‌های محلی ترکیب شود. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت سیستم‌های عامل‌محور (Agentic) اشاره کردیم، با افزایش اتکای مدل‌ها به دستورالعمل‌های بازیافت‌پذیر، سطح حملات «خفته» گسترده‌تر شده است.

برای مقابله با این تهدید، پژوهشگران روش Runtime Skill Audit (RSA) را توسعه دادند. این متد تمرکز را از «ظاهر کد» به «رفتار واقعی عامل در زمان اجرا» تغییر می‌دهد. طبق گزارش این تیم، RSA با تحلیل رابط‌های حساس به ریسک و ایجاد محیط‌های اجرای هدفمند، عملکرد واقعی این رابط‌ها را می‌سنجد.

این سیستم که روی چارچوب OpenClaw پیاده‌سازی شده، نتایج خیره‌کننده‌ای در بنچمارک‌های امنیتی ثبت کرده است:

دقت کلی: ۹۰.۰٪
نرخ مثبت واقعی (True Positive): ۸۸.۰٪
نرخ مثبت کاذب (False Positive): ۸.۰٪
پیشرفت نسبی: ۱۳.۰ درصد در مقایسه با بهترین مدل‌های استاتیک

بر اساس مستندات این پژوهش، در حالی که ردیاب‌های استاتیک پس از یک یا دو دور حمله تکاملی فرو می‌پاشند، RSA توانست ۱۹ تا ۲۰ مهارت مخرب از مجموع ۲۰ مورد را شناسایی کند. این یافته، فرض بنیادین امنیت عامل‌ها را از مدل «یک‌بار بازبینی» به ضرورت «کاوش پویا و مستمر» تغییر می‌دهد.

گام بعدی شما

چارچوب OpenClaw را برای انتشار عمومی ابزارهای ممیزی نظارت کنید.
بررسی کنید که آیا این نرخ‌های دقت در مدل‌های بسته و تجاری نیز تکرار می‌شوند یا خیر.
استراتژی امنیت خود را از بازبینی کد به ردیابی اثرات سیستم در زمان اجرا تغییر دهید.

اما هزینه‌ی محاسباتی این نظارت لحظه‌ای، چالش بعدی است؛ در تحلیل ما درباره‌ی هزینه‌های استنتاج (Inference) GPU بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این سیستم که روی چارچوب OpenClaw پیاده‌سازی شده، نتایج خیره‌کننده‌ای در بنچمارک‌های امنیتی ثبت کرده است:

دقت کلی: ۹۰.۰٪
نرخ مثبت واقعی (True Positive): ۸۸.۰٪
نرخ مثبت کاذب (False Positive): ۸.۰٪
پیشرفت نسبی: ۱۳.۰ درصد در مقایسه با بهترین مدل‌های استاتیک

گام بعدی شما

چارچوب OpenClaw را برای انتشار عمومی ابزارهای ممیزی نظارت کنید.
بررسی کنید که آیا این نرخ‌های دقت در مدل‌های بسته و تجاری نیز تکرار می‌شوند یا خیر.
استراتژی امنیت خود را از بازبینی کد به ردیابی اثرات سیستم در زمان اجرا تغییر دهید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

دقت ۹۰ درصدی RSA در شناسایی مهارت‌های مخرب پنهان در عامل‌های هوش مصنوعی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران