مدلهای استدلالی بزرگ بهعنوان پیشرفتی چشمگیر در وظایف چندمرحلهای استدلال ظهور کردهاند و با نمایش صریح زنجیرهٔ تفکر، شفافیت و سازگاری منطقی بیشتری را ارائه میدهند. با این حال، این مدلها خطرات جدیدی در حوزهٔ ایمنی و قابلیت اعتماد به وجود میآورند که روشهای ارزیابی کنونی قادر به شناسایی کامل آنها نیستند. پژوهشگران معیار RT-LRM را مطرح کردهاند؛ ابزاری یکپارچه برای سنجش اعتمادپذیری این مدلها بر اساس سه بُعد اصلی: صداقت، امنیت و کارایی.
این معیار با افزودن پارادایم آموزش بهعنوان دیدگاه تحلیلی کلیدی، شکافهای مهمی را در چارچوبهای ارزیابی کنونی پوشش میدهد. رویکرد مذکور تأثیر سیستماتیک راهبردهای مختلف آموزشی بر اعتمادپذیری مدل را از طریق مجموعهای انتخابشده از ۳۰ وظیفهٔ استدلالی بررسی میکند.
آزمایشهای گسترده بر روی ۲۶ مدل مختلف، بینشهای ارزشمندی دربارهٔ آسیبپذیریهای مدلهای استدلالی بزرگ آشکار کرده است. پژوهش نشان میدهد که این مدلها در برابر خطرات ناشی از استدلال، عموماً با چالشهای اعتمادپذیری بیشتری مواجهاند و شکنندهتر از مدلهای زبانی معمولی عمل میکنند. از جمله آسیبپذیریهای شناساییشده میتوان به ربودن زنجیرهٔ تفکر و ناکارآمدیهای ناشی از دستورات اشاره کرد که میتوانند قابلیت اطمینان مدل را تضعیف نمایند.
این یافتهها بر ضرورت ارزیابیهای هدفمندتر تأکید میکنند؛ ارزیابیهایی که فراتر از معیارهای سنتي عمل کنند. با شناسایی آسیبپذیریهایی که پیشتر مورد توجه قرار نگرفته بودند، این پژوهش پایهای برای توسعهٔ مدلهای استدلالی مقاومتر فراهم میآورد.
برای پیشبرد آیندهٔ این حوزهٔ مهم، پژوهشگران یک جعبهابزار مقیاسپذیر برای پژوهش استاندارد اعتمادپذیری منتشر کردهاند. کد منبع و مجموعهدادهها بهصورت متنباز ارائه خواهند شد تا جامعهٔ پژوهشی گستردهتر بتواند بر این یافتهها بنا بگذارد و روشهای ارزیابی بهبودیافتهای برای مدلهای استدلالی بزرگ توسعه دهد.
این پژوهش گامی مهم در جهت درک و کاهش خطرات منحصربهفرد سیستمهای هوش مصنوعی مبتنی بر استدلال سنگین محسوب میشود و بر این نکته تأکید دارد که قابلیتهای استدلالی پیشرفته باید با بهبودهای متناظر در اعتمادپذیری و ایمنی همراه باشند.

گفتگو