کدگذارهای خودکار پراکنده به ابزارهای قدرتمندی برای تحقیقات قابلیت تفسیر تبدیل شدهاند و امکان تجزیه فعالسازیهای درهمتنیده مدل به ویژگیهای تکمعنا را فراهم میکنند. با این حال، کاربرد آنها در حوزههای ایمنیمحور که مفاهیم کمتکراری هستند، تا حد زیادی بررسینشده باقی مانده است. دو چالش اساسی مانع پیشرفت شدهاند: شناسایی کدگذارهای خودکار پراکنده با بیشترین پتانسیل برای تولید ویژگیهای خاص حوزه ایمنی و هزینه بسیار بالای ارائه توضیح دقیق از ویژگیها.
چارچوب پیشنهادی Safe-SAIL این چالشها را با معرفی یک معیار ارزیابی پیشتفسیری برطرف میکند که بهطور کارآمد کدگذارهای خودکار پراکنده با پتانسیل قوی قابلیت تفسیر در حوزههای ایمنی را شناسایی مینماید. علاوه بر این، این چارچوب از یک استراتژی شبیهسازی در سطح بخش بهره میبرد که هزینههای تفسیر را به شکل چشمگیری کاهش میدهد.
محققان مجموعهای جامع از کدگذارهای خودکار پراکنده را با توضیحات قابلخواندن برای انسان آموزش دادند و ۱۷۵۸ ویژگی مرتبط با ایمنی را در چهار حوزه حیاتی ارزیابی کردند: پورنوگرافی، سیاست، خشونت و تروریسم. این منبع گسترده امکان تحلیل دقیق نحوه رمزگذاری و پردازش اطلاعات ایمنیمحور توسط مدلهای زبانی بزرگ را فراهم میسازد.
نوآوریهای کلیدی شامل کاهش ۵۵ درصدی هزینههای تفسیر در مقایسه با روشهای پیشین است که تحلیل جامعتری بدون از دست دادن دقت را ممکن میسازد. این چارچوب دو بینش اصلی ارائه میدهد: شناسایی ویژگیهای خطر و تحلیل نحوه توزیع موجودات و مفاهیم ایمنیمحور در لایههای مختلف مدل.
همه منابع، شامل مدلهای آموزشدیده، توضیحات تفصیلی و ابزارهای تحلیلی، از طریق یک ابزار متنباز در دسترس عموم قرار گرفتهاند. این شفافیت از تحقیقات بیشتر در زمینه قابلیت تفسیر ایمنی هوش مصنوعی و توسعه هوش مصنوعی مسئولانه حمایت میکند. این پژوهش گامی مهم به سوی درک مکانیسمهای داخلی است که رفتار ایمنی مدلهای زبانی بزرگ را کنترل میکنند.

گفتگو