مدلهای بزرگ استدلالی امروزی از طریق تکنیکهای پسآموزش مانند تنظیم دقیق نظارتی و یادگیری تقویتی به توانمندیهای چشمگیری دست یافتهاند. پژوهشی تازه با استفاده از تحلیل مداری نشان داده که پسآموزش برای استدلال پیچیده، سرهای توجه جدید، تخصصیافته و کارکردی را برانگیخته میکند که بهطور جمعی استدلال و محاسبه ساختاریافته را پشتیبانی مینمایند.
این پژوهش رویکردهای مختلف آموزش را مقایسه کرد و دریافت که این سرهای پدیدآمده در رژیمهای متفاوت، تحول متفاوتی دارند. تقطیر و تنظیم دقیق نظارتی، افزودن تجمعی سرهای استدلالی پایداری را پرورش میدهند که بهتدریج شکل میگیرند. در مقابل، بهینهسازی سیاست نسبی گروهی در حالت جستجوی پویا عمل میکند؛ تعداد نسبتاً کمی سر توجه بهصورت تکراری فعال، ارزیابی و هرس میشوند و بقای آنها بهشدت با نوسانات سیگنال پاداش وظیفه همبستگی دارد.
نکته جالب توجه اینکه پژوهش نشان داد مدلهای با قابلیت کنترل تفکر، فاقد سرهای اختصاصی تفکر نیستند. بلکه خاموش کردن استدلال صریح، مجموعهای گستردهتر اما کمبازدهتر از سرهای جبرانی را فعال میکند که با تلاش بیشتر به نتایج مشابهی دست مییابند.
از طریق تحلیلهای حذف تدریجی و کیفی، پژوهشگران این پویاییهای مداری را به یک معاوضه مهم عملکردی پیوند زدند. سرهای استدلالی تقویتشده، راهبردهای حل مسئله پیچیدها را برای مسائل دشوار ممکن میسازند، اما میتوانند خطاهای شکست ناشی از تفکر بیشازحد را نیز معرفی کنند؛ مانند خطاهای محاسباتی یا حلقههای منطقی در وظایف سادهتر. این یک تنش ذاتی را آشکار میسازد که در آن استدلال پیچیده هزینهای بر محاسبات ابتدایی تحمیل میکند.
یافتهها پویاییهای سطح مدار را به عملکرد سطح کلان پیوند میدهند و مسیرهای آینده برای طراحی خطمشی آموزش را ترسیم میکنند. پژوهشگران بر ضرورت متوازنسازی توسعه راهبردهای استدلالی مؤثر با تضمین اجرای قابلاعتماد و بینقص در تمام سطوح پیچیدگی وظیفه تأکید میورزند.

گفتگو