محققان ۱۹۵ معیار ایمنی هوش مصنوعی را فهرست کردند؛ پراکندگی گسترده است

محققان ابزار جدیدی به نام AISafetyBenchExplorer (AISafetyBenchExplorer) منتشر کرده‌اند. این فهرست ساختاریافته ۱۹۵ معیار ایمنی هوش مصنوعی را از ۲۰۱۸ تا ۲۰۲۶ مستند می‌کند. آنها این وضعیت را «مشکل پراکندگی بنیادی» توصیف می‌کنند.

این کاتالوگ شامل چهار بخش است: فراداده سطح معیار، تعریف‌های سطح متریک (metric-level definitions)، فراداده مقاله مرجع، و وضعیت فعالیت مخزن (repository activity). این ساختار امکان مقایسه نظامند را فراهم می‌آورد. مسأله اصلی این است که معیارها «ایمنی» را متفاوت تفسیر و ارزیابی می‌کنند.

تحلیل داده‌ها نگرانی‌های ساختاری را آشکار می‌کند. بیشتر معیارها در سطح پیچیدگی متوسط قرار دارند: ۹۴ مورد از ۱۹۵. تنها ۷ معیار به سطح محبوب رسیده‌اند. تمرکز بر ارزیابی انگلیسی‌زبان شدید است: ۱۶۵ مورد. منابع ارزیابی‌محور هم غالب هستند: ۱۷۰ مورد.

نگهداری مخازن نیز مشکل‌ساز شده است. ۱۳۷ مخزن GitHub و ۹۶ مجموعه داده Hugging Face غیرفعال طبقه‌بندی شده‌اند. این یعنی بسیاری از معیارها پس از انتشار، به‌روزرسانی نمی‌شوند.

در سطح متریک (metric)، وضعیت آشوبناک‌تر است. برچسب‌های آشنا مانند دقت (accuracy)، امتیاز F1، و امتیاز ایمنی (safety score) تعریف‌های متفاوتی دارند. این ناهمگونی معنایی (semantic inconsistency) دو معیار با ادعای یکسان را عملاً غیرقابل مقایسه می‌کند.

پژوهشگران می‌گویند شکست اصلی این حوزه «پراکندگی» است، نه «کمبود». با وجود فراوانی ابزارها، محققان فاقد زبان مشترک سنجش هستند. مبنای اصولی برای انتخاب معیار وجود ندارد. هنجارهای نگهداری پس از انتشار هم مشخص نیست. تکیه زیاد بر پیش‌چاپ‌های arXiv به جای مجلات داوری‌شده (peer-reviewed venues) کنترل کیفیت را دشوار می‌کند.

کاتالوگ یک طبقه‌بندی پیچیدگی (complexity taxonomy) ارائه می‌دهد. هدف، کمک به انتخاب آگاهانه‌تر معیارها است. این ابزار برای پژوهشگرانی طراحی شده که باید معیار مناسب ارزیابی را بیابند.

جامعه هوش مصنوعی با چالشی جدی مواجه است: معیارهای متعدد بدون زبان مشترک. این وضعیت مقایسه نتایج و انتخاب معیار مناسب را تقریباً غیرممکن کرده است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان ۱۹۵ معیار ایمنی هوش مصنوعی را فهرست کردند؛ پراکندگی گسترده است

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان ۱۹۵ معیار ایمنی هوش مصنوعی را فهرست کردند؛ پراکندگی گسترده است

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان ۱۹۵ معیار ایمنی هوش مصنوعی را فهرست کردند؛ پراکندگی گسترده است

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان ۱۹۵ معیار ایمنی هوش مصنوعی را فهرست کردند؛ پراکندگی گسترده است

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران