اخیراً پژوهشگران SIR-Bench را معرفی کردهاند؛ معیاری طراحیشده برای ارزیابی عوامل خودکار پاسخگو به رخدادهای امنیتی. این معیار شامل ۷۹۴ مورد آزمون است که از ۱۲۹ الگوی رخداد ناشناسسازیشده با حقایق زمینی اعتبارسنجیشده توسط کارشناسان به دست آمده. این پژوهش خلأی حیاتی در ارزیابی توانایی عوامل هوش مصنوعی برای انجام تحقیقات واقعی فارنزیک - به جای صرفاً تکرار هشدارها - را پوشش میدهد.
برای ساخت SIR-Bench، پژوهشگران چارچوب OUAT (Once Upon A Threat) را توسعه دادند. این چارچوب الگوهای واقعی رخداد را در محیطهای ابری کنترلشده بازتولید میکند و تلهمتری اصیل با نتایج قابل اندازهگیری تحقیقاتی تولید مینماید.
ارزیابی عوامل هوش مصنوعی امنیتی از دیرباز با چالش اندازهگیری عمق تحقیقاتی مواجه بوده است. معیارهای سنتی اغلب بر رسیدن به تصمیمات صحیح دستهبندی تمرکز دارند اما در捕获 کشف شواهد جدید از طریق تحقیقات فعال ناتوانند. SIR-Bench با معرفی روششناسی ارزیابی دقیقتر، هدف پر کردن این شکاف را دنبال میکند.
این معیار سه معیار مکمل را معرفی مینماید: دقت دستهبندی (M1)، کشف یافتههای جدید (M2)، و مناسببودن استفاده از ابزار (M3). این معیارها از طریق رویکرد رقابتی LLM-as-Judge ارزیابی میشوند که بار اثبات را معکوس کرده و شواهد فارنزیک مشخص را برای اعتباربخشی به تحقیقات الزامی میکند.
ارزیابی عامل SIR آنها بر روی این معیار نتایج چشمگیری نشان داده: نرخ تشخیص مثبت واقعی ۹۷.۱٪، رد拒绝 مثبت کاذب ۷۳.۴٪، و ۵.۶۷ یافته کلیدی جدید در هر مورد. این نتایج مبنایی را ایجاد میکنند که عوامل تحقیقاتی آینده میتوانند در برابر آن سنجیده شوند.
SIR-Bench نمایانگر پیشرفتی قابل توجه در ارزیابی هوش مصنوعی امنیتی است و چارچوبی استاندارد برای ارزیابی تواناییهای عوامل در انجام تحقیقات واقعی فارنزیک در اختیار پژوهشگران و متخصصان قرار میدهد.

گفتگو