DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

اگر مدل‌های استدلالی شما در مواجهه با مسائل پیچیده ریاضی پس از اولین اشتباه، در یک حلقه تکرار گیر می‌کنند، مشکل در تعداد پارامترها نیست، بلکه در تک‌بعدی بودن مسیرهای تفکر است. باید بدانید که موفقیت در استدلال، بیش از آنکه به حجم حافظه وابسته باشد، به «تنوع مسیرهای رسیدن به جواب» بستگی دارد.

در ۹ ژوئن ۲۰۲۶، پژوهشگران چارچوبی به نام DiScO (بهینه‌سازی سیاست طرحواره‌های متنوع) را معرفی کردند که تنوع در مسیرهای تفکر یا همان طرحواره‌های تفکر (Thinking Schemata) را به عنوان متغیر اصلی برای افزایش دقت ریاضی در نظر می‌گیرد. همان‌طور که در پوشش پیشین ما از قوانین مقیاس‌پذیری (Scaling Laws) دیدیم، افزایش حجم داده‌ها یا پارامترها همیشه منجر به تفکر عمیق‌تر نمی‌شود و مدل‌ها اغلب در مسیرهای تکراری و محدود گیر می‌کنند.

به نقل از مقاله منتشر شده در arxiv.org، مدل‌های استدلالی فعلی با وجود زنجیره‌های تفکر طولانی، توانایی «تغییر مسیر» پس از شکست در رویکرد اولیه را ندارند. چارچوب DiScO برای حل این بن‌بست، از یک فرآیند سه‌مرحله‌ای برای بهینه‌سازی انتقال‌های استدلالی استفاده می‌کند:

پیاده‌سازی «آگاهی از طرحواره» در وضعیت داخلی مدل.
به‌کارگیری یادگیری تقویت‌شده (Reinforcement Learning) برای تشویق مدل به پیمودن تراژکتوری‌های متنوع.
ترویج فعال مسیرهای استدلالی متفاوت در زمان استنتاج (Inference).

طبق گزارش پژوهشگران، آزمایش‌ها روی بنچمارک‌های مختلف ریاضی نشان می‌دهد که DiScO به‌طور مداوم از روش‌های استاندارد مانند GRPO پیشی می‌گیرد. تحلیل‌های انسانی نیز تأیید می‌کند که این مدل اکنون می‌تواند از خطاهای اولیه بازیابی کرده و به جای تکرار اشتباه، استراتژی حل مسئله خود را تغییر دهد. این تحول، مفهوم مقیاس‌گذاری را از تعداد توکن‌ها به تنوع توپولوژیک منطق داخلی مدل تغییر می‌دهد و ما را به سمت «تفکر سیستم ۲» می‌برد؛ جایی که مدل به جای پیش‌بینی توکن بعدی، چندین قاب مفهومی را کاوش و رد می‌کند.

گام بعدی شما

اگر روی مدل‌های استدلالی کار می‌کنید، اثر افزودن «جریمه‌های تنوع» (Diversity Penalties) در تابع پاداش خود را بررسی کنید.
برای بررسی دقیق نرخ بازیابی خطا (Recovery Rate)، مستندات فنی DiScO در arXiv را مطالعه کنید.
پتانسیل ترکیب این متدولوژی با مدل‌های وزن‌باز را برای بهبود استدلال در زبان‌های کم-منبع بسنجید.

اما این تنوع منطقی در مدل‌های بازمتن چگونه با محدودیت‌های سخت‌افزاری سازگار می‌شود؟ به تحلیل ما درباره بهینه‌سازی استنتاج در مدل‌های کوچک مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پیاده‌سازی «آگاهی از طرحواره» در وضعیت داخلی مدل.
به‌کارگیری یادگیری تقویت‌شده (Reinforcement Learning) برای تشویق مدل به پیمودن تراژکتوری‌های متنوع.
ترویج فعال مسیرهای استدلالی متفاوت در زمان استنتاج (Inference).

گام بعدی شما

اگر روی مدل‌های استدلالی کار می‌کنید، اثر افزودن «جریمه‌های تنوع» (Diversity Penalties) در تابع پاداش خود را بررسی کنید.
برای بررسی دقیق نرخ بازیابی خطا (Recovery Rate)، مستندات فنی DiScO در arXiv را مطالعه کنید.
پتانسیل ترکیب این متدولوژی با مدل‌های وزن‌باز را برای بهبود استدلال در زبان‌های کم-منبع بسنجید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DiScO: ارتقای استدلال ریاضی در مدل‌های زبانی از طریق متنوع‌سازی طرحواره‌های تفکر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران