اگر مدلهای استدلالی شما در مواجهه با مسائل پیچیده ریاضی پس از اولین اشتباه، در یک حلقه تکرار گیر میکنند، مشکل در تعداد پارامترها نیست، بلکه در تکبعدی بودن مسیرهای تفکر است. باید بدانید که موفقیت در استدلال، بیش از آنکه به حجم حافظه وابسته باشد، به «تنوع مسیرهای رسیدن به جواب» بستگی دارد.
در ۹ ژوئن ۲۰۲۶، پژوهشگران چارچوبی به نام DiScO (بهینهسازی سیاست طرحوارههای متنوع) را معرفی کردند که تنوع در مسیرهای تفکر یا همان طرحوارههای تفکر (Thinking Schemata) را به عنوان متغیر اصلی برای افزایش دقت ریاضی در نظر میگیرد. همانطور که در پوشش پیشین ما از قوانین مقیاسپذیری (Scaling Laws) دیدیم، افزایش حجم دادهها یا پارامترها همیشه منجر به تفکر عمیقتر نمیشود و مدلها اغلب در مسیرهای تکراری و محدود گیر میکنند.
به نقل از مقاله منتشر شده در arxiv.org، مدلهای استدلالی فعلی با وجود زنجیرههای تفکر طولانی، توانایی «تغییر مسیر» پس از شکست در رویکرد اولیه را ندارند. چارچوب DiScO برای حل این بنبست، از یک فرآیند سهمرحلهای برای بهینهسازی انتقالهای استدلالی استفاده میکند:
- پیادهسازی «آگاهی از طرحواره» در وضعیت داخلی مدل.
- بهکارگیری یادگیری تقویتشده (Reinforcement Learning) برای تشویق مدل به پیمودن تراژکتوریهای متنوع.
- ترویج فعال مسیرهای استدلالی متفاوت در زمان استنتاج (Inference).
طبق گزارش پژوهشگران، آزمایشها روی بنچمارکهای مختلف ریاضی نشان میدهد که DiScO بهطور مداوم از روشهای استاندارد مانند GRPO پیشی میگیرد. تحلیلهای انسانی نیز تأیید میکند که این مدل اکنون میتواند از خطاهای اولیه بازیابی کرده و به جای تکرار اشتباه، استراتژی حل مسئله خود را تغییر دهد. این تحول، مفهوم مقیاسگذاری را از تعداد توکنها به تنوع توپولوژیک منطق داخلی مدل تغییر میدهد و ما را به سمت «تفکر سیستم ۲» میبرد؛ جایی که مدل به جای پیشبینی توکن بعدی، چندین قاب مفهومی را کاوش و رد میکند.
گام بعدی شما
- اگر روی مدلهای استدلالی کار میکنید، اثر افزودن «جریمههای تنوع» (Diversity Penalties) در تابع پاداش خود را بررسی کنید.
- برای بررسی دقیق نرخ بازیابی خطا (Recovery Rate)، مستندات فنی DiScO در arXiv را مطالعه کنید.
- پتانسیل ترکیب این متدولوژی با مدلهای وزنباز را برای بهبود استدلال در زبانهای کم-منبع بسنجید.
اما این تنوع منطقی در مدلهای بازمتن چگونه با محدودیتهای سختافزاری سازگار میشود؟ به تحلیل ما درباره بهینهسازی استنتاج در مدلهای کوچک مراجعه کنید.
گفتگو