توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

آیا «تفکر» می‌تواند یک هوش مصنوعی را اخلاقی‌تر کند یا فقط توجیهات آن را تغییر می‌دهد؟ اگر تصور می‌کنید مدل‌های استدلالی وجدان جدیدی پیدا کرده‌اند، باید در این باور تجدیدنظر کنید.

به نقل از مطالعه‌ای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، حالت‌های استدلالی (Reasoning Modes) نتوانستند اکثر احکام اخلاقی مدل‌ها را تغییر دهند، اما توانستند مدل‌ها را در سخت‌ترین دیلم‌های اخلاقی با یکدیگر هم‌راستا کنند.

پژوهشگران پنج مدل پیشرو شامل Claude Sonnet 4.6، GPT 5.5، Gemini 3 Flash، DeepSeek V3.1 و Qwen3.5 397B را در ۱۰۰ سناریوی قضاوت اخلاقی مورد آزمایش قرار دادند. هدف این بود که مشخص شود آیا زنجیره تفکر (Chain-of-Thought) داخلی، حکم نهایی را تغییر می‌دهد یا خیر.

بر اساس مستندات این گزارش، توافق کلی در احکام باینری (صفر و یک) تقریباً بدون تغییر باقی ماند؛ به طوری که ضریب توافق کریپندورف در حالت «آنی» ۰.۷۸ و در حالت «تفکر» ۰.۷۹ بود. با این حال، تأثیر اصلی در ۲۱ سناریوی بحث‌برانگیز بود که در حالت آنی، توافق مدل‌ها تقریباً تصادفی (۰.۰۸) بود.

یافته‌های کلیدی این پژوهش عبارتند از:

افزایش میانگین توافق جفتی در سناریوهای بحث‌برانگیز از ۵.۴ به ۶.۷ از ۱۰.
کاهش ناهماهنگی در قضاوت‌های جمعیتی در ۳ مدل از ۵ مدل بررسی شده.
تغییر چارچوب‌های اخلاقیِ خوداظهاری مدل‌ها، بسیار بیشتر از تغییر در احکام واقعی آن‌ها بود.

همان‌طور که در پوشش پیشین ما از چالش‌های همراستاسازی (Alignment) مدل‌های بازمتن دیدیم، لایه‌ی استدلال می‌تواند خروجی‌ها را صیقل دهد، اما لزوماً سوگیری‌های نهفته در وزن‌های مدل را بازنویسی نمی‌کند. این نشان می‌دهد که استدلال «سیستم ۲» بیشتر به عنوان یک فیلتر سازگاری عمل می‌کند تا یک قطب‌نمای اخلاقی بنیادین.

این تنها آغاز ماجراست؛ اثر این سازگاری بر آینده‌ی عامل‌های (Agents) خودمختار را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

خروجی‌های مدل‌های استدلالی را در سناریوهای خاکستری اخلاقی با پاسخ‌های آنی مقایسه کنید تا تفاوت در «توجیه» را ببینید.
در طراحی سیستم‌های حساس، به جای تکیه بر لایه‌ی استدلال، بر روی داده‌های آموزشی برای حذف سوگیری‌های جمعیتی تمرکز کنید.
بررسی کنید که آیا مدل شما در تغییر «چارچوب اخلاقی» ادعایی، همچنان همان حکم قبلی را صادر می‌کند یا خیر.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

یافته‌های کلیدی این پژوهش عبارتند از:

افزایش میانگین توافق جفتی در سناریوهای بحث‌برانگیز از ۵.۴ به ۶.۷ از ۱۰.
کاهش ناهماهنگی در قضاوت‌های جمعیتی در ۳ مدل از ۵ مدل بررسی شده.
تغییر چارچوب‌های اخلاقیِ خوداظهاری مدل‌ها، بسیار بیشتر از تغییر در احکام واقعی آن‌ها بود.

گام بعدی شما

خروجی‌های مدل‌های استدلالی را در سناریوهای خاکستری اخلاقی با پاسخ‌های آنی مقایسه کنید تا تفاوت در «توجیه» را ببینید.
در طراحی سیستم‌های حساس، به جای تکیه بر لایه‌ی استدلال، بر روی داده‌های آموزشی برای حذف سوگیری‌های جمعیتی تمرکز کنید.
بررسی کنید که آیا مدل شما در تغییر «چارچوب اخلاقی» ادعایی، همچنان همان حکم قبلی را صادر می‌کند یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم اخلاق؛ چرا «تفکر» در AI فقط یک فیلتر سازگاری است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران