باید باور کنیم که مدل زبانی بزرگ (LLM) احتمالاً درک عمیقتری از اخلاقیات دارد، اما ما تاکنون سؤالات اشتباهی پرسیدهایم. تصور کنید ابزاری قدرتمند داشته باشید اما آن را با معیارهایی بسنجید که اساساً برای سنجش توانمندیهایش طراحی نشدهاند.
این تحلیل در حالی منتشر میشود که پژوهشگران ایمنی هوش مصنوعی برای تعریف نحوه عملکرد مدلها در محیطهای پویا و باز دستوپا میزنند. همانطور که در پوشش پیشین ما دربارهی چارچوب RAGAS و معیارهای LLM-as-Judge دیدیم، نقش «داور» جایی است که توانمندیهای واقعی استدلالی مدلها ظهور میکند، نه لزوماً در اجرای مستقیم دستورات.
طبق مقالهای که در ۱۱ ژوئن ۲۰۲۶ توسط پژوهشگر سث لازار (Seth Lazar) منتشر شد، تیمی از متخصصان مجموعهدادهی MoReBench را بازبینی کردند. در آزمایشهای اولیه، پاسخهای مدلها با ۱۰۰۰ روبریک (Rubric) استاندارد انسانی مقایسه میشد و نتایج ناامیدکننده بود. اما محققان متغیر اصلی را تغییر دادند: به جای درخواست پاسخ به پروندههای اخلاقی، از مدلها خواستند تا خودشان روبریکهای امتیازدهی را طراحی کنند.
به نقل از این گزارش، نتایج شگفتانگیز بود؛ روبریکهای تولیدشده توسط هوش مصنوعی، سازگاری بسیار بیشتری با استانداردهای انسانی داشتند تا پاسخهای مستقیم مدل به همان سوالات. این یافتهها چند نکته کلیدی را روشن میکند:
- نتیجهگیریهای «بدبینانه» در مقالات پیشین احتمالاً اثر جانبی (Artifact) فرمت پرامپت بودهاند.
- مدلها دارای ابعاد نهفتهای برای درک مسائل پیچیده اخلاقی هستند، اما نمیتوانند همیشه این درک را به یک پاسخ قطعی و پیشفرض تبدیل کنند.
- تمرکز بنچمارکها باید از «دقت خروجی» به «همراستاسازی ساختاری» (Structural Alignment) تغییر یابد.
برای جامعه فنی، این یک چرخش راهبردی است. این بدان معناست که همراستاسازی (Alignment) مدلها نه در آنچه «میگویند»، بلکه در نحوه «ساختارهای ارزیابی» آنها نهفته است.
گام بعدی شما
- در ارزیابی مدلهای خود، به جای پاسخهای کوتاه، از مدل بخواهید ابتدا معیارهای امتیازدهی (Scoring Rubrics) را برای مسئله تعریف کند.
- تغییر متدولوژی از Output-based به Structure-based را در خطلوله ارزیابی (Evaluation Pipeline) خود امتحان کنید.
- بر این موضوع نظارت کنید که آیا تولید روبریک به استاندارد جدید ارزیابی ایمنی در مدلهای استدلالی تبدیل میشود یا خیر.
اما این توانایی در مدلهای استدلالی جدیدتر (Reasoning Models) چگونه تکامل مییابد؟ به تحلیل ما دربارهی تحولات معماری زنجیره تفکر در گزارش بعدی بمانید.



گفتگو