TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

اگر تصور می‌کنید مدل‌های زبانی در حال تسلط بر ریاضیات رسمی هستند، باید بدانید که این مدل‌ها احتمالاً فقط در حال «تقلب» در بنچمارک‌ها هستند. واقعیت این است که موفقیت در حل مسائل کوتاه و مسابقاتی، به معنای توانایی مدیریت ساختارهای پیچیده در ریاضیات واقعی نیست.

بسیاری از بنچمارک‌های اثبات رسمی، زنجیره‌های وابستگی (Dependency Chains) را که برای براهین کلاسیک حیاتی هستند، نادیده می‌گیرند. همان‌طور که در تحلیل قبلی ما درباره‌ی چارچوب CAHL و شکاف میان برنامه‌ریز و اجراکننده اشاره کردیم، مشکل اصلی در مدیریت استراتژیک مسیر اثبات است، نه لزوماً تولید کد.

به نقل از گزارش منتشرشده در arxiv.org در تاریخ ۹ ژوئن ۲۰۲۶، بنچمارک TheoremBench با تحلیل نزدیک به ۱۰۰ قضیه کلاسیک در محیط Lean4 معرفی شده است. این ابزار در دو قالب ارائه می‌شود:

نسخه ساده (Plain): شامل یک قضیه هدف واحد.
نسخه پیش‌فرض (Premised): گسترش براهین به خانواده‌هایی از وظایف مرتبط با زیر-براهین (Sub-theorems) استخراج‌شده به صورت خودکار.

برای ثبت رفتارهای کیفی، پژوهشگران معیارهای «پوشش سطح قضیه» و «بهینگی توکن» را معرفی کرده‌اند. این ابزارها اجازه می‌دهند بفهمیم مدل واقعاً چگونه در ساختار داخلی اثبات حرکت کرده است، نه اینکه صرفاً به جواب درست رسیده یا خیر.

طبق اعلام پژوهشگران، این یافته‌ها فرضیات موجود درباره استدلال مدل‌ها را تغییر می‌دهد. داده‌ها نشان می‌دهند که اثبات‌گرهای هوش مصنوعی به شدت به سمت زیر-براهین ساده سوگیری دارند و اغلب اهداف را از طریق ردپاهای تاکتیکی (Tactic Traces) طولانی و ناکارآمد حل می‌کنند، به جای آنکه یک برنامه فشرده و منطقی طراحی کنند. این یعنی مدل‌ها به دنبال نزدیک‌ترین تاکتیک معتبر می‌گردند، نه معماری یک مسیر منطقی.

گام بعدی شما

بررسی اثرات تنظیم دقیق (Fine-tuning) مبتنی بر RL بر نسخه‌های Premised این بنچمارک برای اجبار مدل‌ها به تولید برنامه‌های فشرده‌تر
تحلیل نرخ توکن-کارایی در مدل‌های استدلالی (Reasoning Models) جدید برای شناسایی الگوهای جستجوی کور
مطالعه متدولوژی استخراج خودکار زیر-براهین برای بهبود داده‌های آموزشی

اما چالش اصلی، انتقال این توانایی از محیط‌های کنترل‌شده به مسائل باز و پیچیده است؛ در گزارش بعدی ما درباره آینده استدلال نمادین منتظر باشید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نسخه ساده (Plain): شامل یک قضیه هدف واحد.
نسخه پیش‌فرض (Premised): گسترش براهین به خانواده‌هایی از وظایف مرتبط با زیر-براهین (Sub-theorems) استخراج‌شده به صورت خودکار.

گام بعدی شما

بررسی اثرات تنظیم دقیق (Fine-tuning) مبتنی بر RL بر نسخه‌های Premised این بنچمارک برای اجبار مدل‌ها به تولید برنامه‌های فشرده‌تر
تحلیل نرخ توکن-کارایی در مدل‌های استدلالی (Reasoning Models) جدید برای شناسایی الگوهای جستجوی کور
مطالعه متدولوژی استخراج خودکار زیر-براهین برای بهبود داده‌های آموزشی

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران