اگر تصور میکنید مدلهای زبانی در حال تسلط بر ریاضیات رسمی هستند، باید بدانید که این مدلها احتمالاً فقط در حال «تقلب» در بنچمارکها هستند. واقعیت این است که موفقیت در حل مسائل کوتاه و مسابقاتی، به معنای توانایی مدیریت ساختارهای پیچیده در ریاضیات واقعی نیست.
بسیاری از بنچمارکهای اثبات رسمی، زنجیرههای وابستگی (Dependency Chains) را که برای براهین کلاسیک حیاتی هستند، نادیده میگیرند. همانطور که در تحلیل قبلی ما دربارهی چارچوب CAHL و شکاف میان برنامهریز و اجراکننده اشاره کردیم، مشکل اصلی در مدیریت استراتژیک مسیر اثبات است، نه لزوماً تولید کد.
به نقل از گزارش منتشرشده در arxiv.org در تاریخ ۹ ژوئن ۲۰۲۶، بنچمارک TheoremBench با تحلیل نزدیک به ۱۰۰ قضیه کلاسیک در محیط Lean4 معرفی شده است. این ابزار در دو قالب ارائه میشود:
- نسخه ساده (Plain): شامل یک قضیه هدف واحد.
- نسخه پیشفرض (Premised): گسترش براهین به خانوادههایی از وظایف مرتبط با زیر-براهین (Sub-theorems) استخراجشده به صورت خودکار.
برای ثبت رفتارهای کیفی، پژوهشگران معیارهای «پوشش سطح قضیه» و «بهینگی توکن» را معرفی کردهاند. این ابزارها اجازه میدهند بفهمیم مدل واقعاً چگونه در ساختار داخلی اثبات حرکت کرده است، نه اینکه صرفاً به جواب درست رسیده یا خیر.
طبق اعلام پژوهشگران، این یافتهها فرضیات موجود درباره استدلال مدلها را تغییر میدهد. دادهها نشان میدهند که اثباتگرهای هوش مصنوعی به شدت به سمت زیر-براهین ساده سوگیری دارند و اغلب اهداف را از طریق ردپاهای تاکتیکی (Tactic Traces) طولانی و ناکارآمد حل میکنند، به جای آنکه یک برنامه فشرده و منطقی طراحی کنند. این یعنی مدلها به دنبال نزدیکترین تاکتیک معتبر میگردند، نه معماری یک مسیر منطقی.
گام بعدی شما
- بررسی اثرات تنظیم دقیق (Fine-tuning) مبتنی بر RL بر نسخههای Premised این بنچمارک برای اجبار مدلها به تولید برنامههای فشردهتر
- تحلیل نرخ توکن-کارایی در مدلهای استدلالی (Reasoning Models) جدید برای شناسایی الگوهای جستجوی کور
- مطالعه متدولوژی استخراج خودکار زیر-براهین برای بهبود دادههای آموزشی
اما چالش اصلی، انتقال این توانایی از محیطهای کنترلشده به مسائل باز و پیچیده است؛ در گزارش بعدی ما درباره آینده استدلال نمادین منتظر باشید.
گفتگو