باید بدانید که بسیاری از ادعاهای مربوط به «استدلال» در مدلهای زبانی کوچک، احتمالاً یک توهم بصری ناشی از فرمت پاسخهاست. اگر تصور میکنید مدلهای کوچک با استفاده از زنجیره تفکر واقعاً در حال حل مسئله هستند، نتایج جدید ممکن است شما را به شدت به تردید وادارد.
مطالعات تخریب (Corruption Studies)، که ابزار اصلی برای ارزیابی وفاداری زنجیره تفکر (Chain-of-Thought) هستند، در واقع بیشتر در حال اندازهگیری فرمت پاسخاند تا محاسبات واقعی. پژوهشگران پیش از این تصور میکردند که با جایگزینی گامهای استدلالی با خطاها، میتوانند بخشهای «از نظر محاسباتی حیاتی» در فرآیند تفکر مدل را شناسایی کنند.
همانطور که در تحلیلهای قبلی ما دربارهی توهمات مدلهای زبانی اشاره کردیم، مرز بین استدلال واقعی و بازتولید الگو بسیار باریک است. طبق تحلیل فنی منتشر شده در ۱۲ مه ۲۰۲۶ در arxiv.org، این تستها توسط عبارات صریح پاسخ نهایی، مانند «پاسخ برابر است با X»، گمراه میشوند.
بر اساس مستندات این پژوهش، با استفاده از بنچمارکهای GSM8K و MATH، یافتههای زیر به دست آمده است:
- در مدلهای ۳ میلیارد پارامتری، حذف عبارت پاسخ (در حالی که تمام استدلالها حفظ شدهاند)، حساسیت پسوند را تقریباً ۱۹ برابر کاهش داد.
- نرخ «پیروی از پاسخ اشتباه» (followed-wrong rate) در مدلهای ۳ تا ۷ میلیارد پارامتری بین ۰.۶۳ و ۱.۰۰ بود؛ یعنی مدلها تقریباً همیشه از متن پاسخ پیروی میکردند، حتی اگر استدلالها تخریب شده بودند.
- این اثر در مدلهای Phi-4-14B (نسبت ۸.۵ برابر) و DeepSeek-R1-7B (بازیابی ۱۰.۹ برابر) نیز مشاهده شد، اما در مدلهای مقیاس ۳۲ میلیارد پارامتر به سمت صفر میل کرد.
این یافته، فرضیات بنیادین درباره وفاداری مدلها را میشکند. به نظر میرسد در مدلهای زیر ۳۲ میلیارد پارامتر، آنچه به عنوان «اهمیت استدلالی» شناسایی میشد، صرفاً یک اثر جانبی در زمان استنتاج است: مدل متن پاسخ را میبیند و منطق را نادیده میگیرد. بنابراین، بسیاری از پیشرفتهای گزارششده در وفاداری CoT، احتمالاً توهمات ناشی از فرمتبندی هستند، نه بهبود در پردازش شناختی.
گام بعدی شما
- پژوهشگران باید پروتکل جدید سه-مرحلهای شامل کنترلهای «فقط سؤال»، توصیف فرمت و پیمایش تمام موقعیتها را اجرا کنند.
- هنگام ارزیابی مدلهای کوچک، هرگز به نتایج CoT بدون حذف عبارتهای نهایی پاسخ اعتماد نکنید.
- بررسی کنید که آیا مدل شما در صورت تغییر فرمت پاسخ، همچنان قادر به استدلال است یا خیر.
اما این نقص در مدلهای کوچک، سؤالی حیاتی دربارهی نحوه آموزش مدلهای استدلالی بزرگتر ایجاد میکند — به بررسی ما دربارهی معماریهای Reasoning مراجعه کنید.




گفتگو