آیا «تفکر» میتواند یک هوش مصنوعی را اخلاقیتر کند یا فقط توجیهات آن را تغییر میدهد؟ اگر تصور میکنید مدلهای استدلالی وجدان جدیدی پیدا کردهاند، باید در این باور تجدیدنظر کنید.
به نقل از مطالعهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، حالتهای استدلالی (Reasoning Modes) نتوانستند اکثر احکام اخلاقی مدلها را تغییر دهند، اما توانستند مدلها را در سختترین دیلمهای اخلاقی با یکدیگر همراستا کنند.
پژوهشگران پنج مدل پیشرو شامل Claude Sonnet 4.6، GPT 5.5، Gemini 3 Flash، DeepSeek V3.1 و Qwen3.5 397B را در ۱۰۰ سناریوی قضاوت اخلاقی مورد آزمایش قرار دادند. هدف این بود که مشخص شود آیا زنجیره تفکر (Chain-of-Thought) داخلی، حکم نهایی را تغییر میدهد یا خیر.
بر اساس مستندات این گزارش، توافق کلی در احکام باینری (صفر و یک) تقریباً بدون تغییر باقی ماند؛ به طوری که ضریب توافق کریپندورف در حالت «آنی» ۰.۷۸ و در حالت «تفکر» ۰.۷۹ بود. با این حال، تأثیر اصلی در ۲۱ سناریوی بحثبرانگیز بود که در حالت آنی، توافق مدلها تقریباً تصادفی (۰.۰۸) بود.
یافتههای کلیدی این پژوهش عبارتند از:
- افزایش میانگین توافق جفتی در سناریوهای بحثبرانگیز از ۵.۴ به ۶.۷ از ۱۰.
- کاهش ناهماهنگی در قضاوتهای جمعیتی در ۳ مدل از ۵ مدل بررسی شده.
- تغییر چارچوبهای اخلاقیِ خوداظهاری مدلها، بسیار بیشتر از تغییر در احکام واقعی آنها بود.
همانطور که در پوشش پیشین ما از چالشهای همراستاسازی (Alignment) مدلهای بازمتن دیدیم، لایهی استدلال میتواند خروجیها را صیقل دهد، اما لزوماً سوگیریهای نهفته در وزنهای مدل را بازنویسی نمیکند. این نشان میدهد که استدلال «سیستم ۲» بیشتر به عنوان یک فیلتر سازگاری عمل میکند تا یک قطبنمای اخلاقی بنیادین.
این تنها آغاز ماجراست؛ اثر این سازگاری بر آیندهی عاملهای (Agents) خودمختار را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- خروجیهای مدلهای استدلالی را در سناریوهای خاکستری اخلاقی با پاسخهای آنی مقایسه کنید تا تفاوت در «توجیه» را ببینید.
- در طراحی سیستمهای حساس، به جای تکیه بر لایهی استدلال، بر روی دادههای آموزشی برای حذف سوگیریهای جمعیتی تمرکز کنید.
- بررسی کنید که آیا مدل شما در تغییر «چارچوب اخلاقی» ادعایی، همچنان همان حکم قبلی را صادر میکند یا خیر.




گفتگو