رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

باید بپذیرید که هر آنچه مدل‌های زبانی بزرگ (LLM) درباره‌ی نحوه تفکرشان می‌گویند، احتمالاً یک توهم سازمان‌یافته است. تصور کنید سیستمی را که دقیقاً می‌داند چه پاسخی دهد، اما وقتی از او می‌پرسید «چرا»، پاسخی می‌دهد که هیچ ربطی به فرآیند واقعی تصمیم‌گیری‌اش ندارد.

این کشف در حالی رخ می‌دهد که ما در دوران گذار به مدل‌های استدلالی هستیم. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، همراستاسازی مدل‌ها با واقعیت همواره چالش‌برانگیز بوده است. این پژوهش اکنون تأیید می‌کند که شکاف میان «رفتار» و «گزارش زبانی» عمیق‌تر از آن است که تصور می‌شد.

طبق اعلام پژوهشی به سرپرستی گابریل فریدمن (Gabriel Freedman) که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، مدل‌ها دچار پدیده‌ای به نام «باور سطحی» هستند. در این مطالعه که نتایج آن در وب‌سایت arxiv.org منتشر شده، پژوهشگران از محیط‌های تصمیم‌گیری دوگانه (Binary) استفاده کردند. یافته‌های کلیدی این گزارش عبارتند از:

مدل‌های رفتاری توانستند انتخاب‌های مدل را با دقت پیش‌بینی کنند، که ثابت می‌کند تصمیمات LLMها تصادفی نیست و به ویژگی‌های بصری وابسته است.
گزارشات مستقیم مدل‌ها (Self-reports) تنها در بخش کوچکی از موارد توانستند محرک‌های واقعی تصمیم را شناسایی کنند.
این شکاف کیفی در شرایط مختلف نمونه‌برداری، تغییر ترتیب پرامپت‌ها و ساختارهای متغیر تصمیم‌گیری همچنان پابرجا بود.

برای جامعه‌ی فنی، این نتیجه به این معناست که لایه زبانی مدل کاملاً از سیستم اولویت‌بندی احتمالی که تصمیم نهایی را اجرا می‌کند، جدا شده است. بنابراین، زنجیره تفکر (Chain-of-Thought) ممکن است صرفاً تقلیدی از منطق باشد؛ یعنی توهم (Hallucination) هایی که پس از اتخاذ تصمیم برای پذیرفتنی جلوه دادن آن ساخته می‌شوند، نه ردپایی شفاف از فرآیند استدلال.

توسعه‌دهندگان اکنون باید بررسی کنند که آیا این «باور سطحی» از طریق روش‌های تفسیرپذیری مکانیکی قابل رفع است یا اینکه شفافیت زبانی در معماری‌های فعلی مبتنی بر ترنسفورمر، یک محال ساختاری است.

گام بعدی شما

بررسی متدهای تفسیرپذیری مکانیکی برای یافتن محرک‌های واقعی تصمیم‌گیری.
بازنگری در اعتماد به گزارشات زبانی مدل‌ها در سیستم‌های حساس و حیاتی.
دنبال کردن پژوهش‌های مربوط به جداسازی لایه‌ی استنتاج (Inference) از لایه‌ی توجیهی.

اما آیا می‌توان این شکاف را با تغییر معماری ترنسفورمرها برطرف کرد یا شفافیت زبانی یک محال ساختاری است؟ به تحلیل ما درباره‌ی مدل‌های استدلالی نسل بعدی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مدل‌های رفتاری توانستند انتخاب‌های مدل را با دقت پیش‌بینی کنند، که ثابت می‌کند تصمیمات LLMها تصادفی نیست و به ویژگی‌های بصری وابسته است.
گزارشات مستقیم مدل‌ها (Self-reports) تنها در بخش کوچکی از موارد توانستند محرک‌های واقعی تصمیم را شناسایی کنند.
این شکاف کیفی در شرایط مختلف نمونه‌برداری، تغییر ترتیب پرامپت‌ها و ساختارهای متغیر تصمیم‌گیری همچنان پابرجا بود.

گام بعدی شما

بررسی متدهای تفسیرپذیری مکانیکی برای یافتن محرک‌های واقعی تصمیم‌گیری.
بازنگری در اعتماد به گزارشات زبانی مدل‌ها در سیستم‌های حساس و حیاتی.
دنبال کردن پژوهش‌های مربوط به جداسازی لایه‌ی استنتاج (Inference) از لایه‌ی توجیهی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران