SIR-Bench: معیاری نوین برای ارزیابی عوامل پاسخگو به رخدادهای امنیتی

اخیراً پژوهشگران SIR-Bench را معرفی کرده‌اند؛ معیاری طراحی‌شده برای ارزیابی عوامل خودکار پاسخگو به رخدادهای امنیتی. این معیار شامل ۷۹۴ مورد آزمون است که از ۱۲۹ الگوی رخداد ناشناس‌سازی‌شده با حقایق زمینی اعتبارسنجی‌شده توسط کارشناسان به دست آمده. این پژوهش خلأی حیاتی در ارزیابی توانایی عوامل هوش مصنوعی برای انجام تحقیقات واقعی فارنزیک - به جای صرفاً تکرار هشدارها - را پوشش می‌دهد.

برای ساخت SIR-Bench، پژوهشگران چارچوب OUAT (Once Upon A Threat) را توسعه دادند. این چارچوب الگوهای واقعی رخداد را در محیط‌های ابری کنترل‌شده بازتولید می‌کند و تله‌متری اصیل با نتایج قابل اندازه‌گیری تحقیقاتی تولید می‌نماید.

ارزیابی عوامل هوش مصنوعی امنیتی از دیرباز با چالش اندازه‌گیری عمق تحقیقاتی مواجه بوده است. معیارهای سنتی اغلب بر رسیدن به تصمیمات صحیح دسته‌بندی تمرکز دارند اما در捕获 کشف شواهد جدید از طریق تحقیقات فعال ناتوانند. SIR-Bench با معرفی روش‌شناسی ارزیابی دقیق‌تر، هدف پر کردن این شکاف را دنبال می‌کند.

این معیار سه معیار مکمل را معرفی می‌نماید: دقت دسته‌بندی (M1)، کشف یافته‌های جدید (M2)، و مناسب‌بودن استفاده از ابزار (M3). این معیارها از طریق رویکرد رقابتی LLM-as-Judge ارزیابی می‌شوند که بار اثبات را معکوس کرده و شواهد فارنزیک مشخص را برای اعتباربخشی به تحقیقات الزامی می‌کند.

ارزیابی عامل SIR آن‌ها بر روی این معیار نتایج چشمگیری نشان داده: نرخ تشخیص مثبت واقعی ۹۷.۱٪، رد拒绝 مثبت کاذب ۷۳.۴٪، و ۵.۶۷ یافته کلیدی جدید در هر مورد. این نتایج مبنایی را ایجاد می‌کنند که عوامل تحقیقاتی آینده می‌توانند در برابر آن سنجیده شوند.

SIR-Bench نمایانگر پیشرفتی قابل توجه در ارزیابی هوش مصنوعی امنیتی است و چارچوبی استاندارد برای ارزیابی توانایی‌های عوامل در انجام تحقیقات واقعی فارنزیک در اختیار پژوهشگران و متخصصان قرار می‌دهد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

SIR-Bench: معیاری نوین برای ارزیابی عوامل پاسخگو به رخدادهای امنیتی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SIR-Bench: معیاری نوین برای ارزیابی عوامل پاسخگو به رخدادهای امنیتی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SIR-Bench: معیاری نوین برای ارزیابی عوامل پاسخگو به رخدادهای امنیتی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SIR-Bench: معیاری نوین برای ارزیابی عوامل پاسخگو به رخدادهای امنیتی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران