محققان ابزار جدیدی به نام AISafetyBenchExplorer (AISafetyBenchExplorer) منتشر کردهاند. این فهرست ساختاریافته ۱۹۵ معیار ایمنی هوش مصنوعی را از ۲۰۱۸ تا ۲۰۲۶ مستند میکند. آنها این وضعیت را «مشکل پراکندگی بنیادی» توصیف میکنند.
این کاتالوگ شامل چهار بخش است: فراداده سطح معیار، تعریفهای سطح متریک (metric-level definitions)، فراداده مقاله مرجع، و وضعیت فعالیت مخزن (repository activity). این ساختار امکان مقایسه نظامند را فراهم میآورد. مسأله اصلی این است که معیارها «ایمنی» را متفاوت تفسیر و ارزیابی میکنند.
{{img:0}}
تحلیل دادهها نگرانیهای ساختاری را آشکار میکند. بیشتر معیارها در سطح پیچیدگی متوسط قرار دارند: ۹۴ مورد از ۱۹۵. تنها ۷ معیار به سطح محبوب رسیدهاند. تمرکز بر ارزیابی انگلیسیزبان شدید است: ۱۶۵ مورد. منابع ارزیابیمحور هم غالب هستند: ۱۷۰ مورد.
نگهداری مخازن نیز مشکلساز شده است. ۱۳۷ مخزن GitHub و ۹۶ مجموعه داده Hugging Face غیرفعال طبقهبندی شدهاند. این یعنی بسیاری از معیارها پس از انتشار، بهروزرسانی نمیشوند.
در سطح متریک (metric)، وضعیت آشوبناکتر است. برچسبهای آشنا مانند دقت (accuracy)، امتیاز F1، و امتیاز ایمنی (safety score) تعریفهای متفاوتی دارند. این ناهمگونی معنایی (semantic inconsistency) دو معیار با ادعای یکسان را عملاً غیرقابل مقایسه میکند.
پژوهشگران میگویند شکست اصلی این حوزه «پراکندگی» است، نه «کمبود». با وجود فراوانی ابزارها، محققان فاقد زبان مشترک سنجش هستند. مبنای اصولی برای انتخاب معیار وجود ندارد. هنجارهای نگهداری پس از انتشار هم مشخص نیست. تکیه زیاد بر پیشچاپهای arXiv به جای مجلات داوریشده (peer-reviewed venues) کنترل کیفیت را دشوار میکند.
کاتالوگ یک طبقهبندی پیچیدگی (complexity taxonomy) ارائه میدهد. هدف، کمک به انتخاب آگاهانهتر معیارها است. این ابزار برای پژوهشگرانی طراحی شده که باید معیار مناسب ارزیابی را بیابند.
جامعه هوش مصنوعی با چالشی جدی مواجه است: معیارهای متعدد بدون زبان مشترک. این وضعیت مقایسه نتایج و انتخاب معیار مناسب را تقریباً غیرممکن کرده است.

گفتگو