استحکام در برابر حملات متخاصم برای استقرار شبکههای عصبی در کاربردهای حساس ایمنی حیاتی است، اما روشهای فعلی ارزیابی محدودیتهای جدی دارند. رویکردهای سنتی یا به حملات متخاصم پرهزینه نیاز دارند یا تنها امتیازات کلی ارائه میدهند که نحوه تغییر استحکام در کلاسهای مختلف را پنهان میکنند.
پژوهشگران جیاف-اسکور (GREAT-Fairness Score) را معرفی کردهاند؛ چارچوبی نوین که استحکام Certified را به پروفایلهای هر کلاس تجزیه میکند و عدالت را از طریق چهار معیار مبتنی بر اقتصاد رفاه کمیسازی میکند. این معیارها شامل شاخص شکاف استحکام، ضریب جینی استحکام نرمالشده، استحکام بدترین کلاس و امتیاز جیآریئیتی با جریمه عدالت میشوند.
یکی از نوآوریهای کلیدی، روش خود-کالیبراسیون است که نیاز به حملات متخاصم را از بین میبرد. با تنظیم پارامتر دما تنها با استفاده از همبستگیهای دقت تمیز، این چارچوب تضمینهای استحکام Certified را بدون سربار محاسباتی سنگین ارائه میدهد.
آزمایش روی ۲۲ مدل از RobustBench روی دیتاستهای سیآیافآر-۱۰ و ایمیجنت نتایج مهمی آشکار کرد. تجزیه دقیق بود، به این معنی که تحلیل هر کلاس بهطور صحیح نماینده امتیاز کلی است. تحلیل الگوهای آسیبپذیری ثابتی را نشان داد؛ به عنوان نمونه کلاس گربه در ۷۶ درصد مدلهای سیآیافآر-۱۰ ضعیفترین بود. شاید نگرانکنندهتر اینکه مدلهای مقاومتر تمایل به شکاف بیشتر بین کلاسها داشتند، که نشان میدهد بهبود استحکام کلی ممکن است به قیمت عدالت صورت گیرد.
این پژوهش خط لوله حسابرسی عملی و بدون حمله را ایجاد میکند که میتواند تشخیص دهد تضمینهای استحکام Certified در کجا از محافظت یکسان همه کلاسها ناتوان هستند. با شفافتر و доступیتر کردن ارزیابی استحکام، این چارچوب به پژوهشگران و متخصصان امکان میدهد سیستمهای هوش مصنوعی منصفانهتری بسازند. کد و ابزارهای ارزیابی در گیتهاب به صورت عمومی در دسترس است.

گفتگو