باید بپذیریم که مدلهای زبانی پیشرو در مواجهه با ریاضیات گسسته به یک دیوار برخورد کردهاند. نتایج جدید نشان میدهد تفاوت عمیقی میان «توانایی استدلال برای اثبات» و «توانایی ساخت یک راه حل واقعی» وجود دارد.
این شکاف در بنچمارک جدیدی به نام ComBench آشکار شده است. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای استدلالی (Reasoning Models) اشاره کردیم، تصور بر این بود که افزایش مقیاس دادهها، تمامی جنبههای تفکر ریاضی را پوشش میدهد؛ اما ComBench این فرض را به چالش میکشد.
طبق گزارش ۱۰ ژوئن ۲۰۲۶ در arxiv.org، مدلهای زبان بزرگ (LLM) در حل مسائل ترکیبیات (Combinatorics) با محدودیت شدید روبرو هستند. این بنچمارک از ۱۰۰ مسئلهی منتخب المپیادی استفاده میکند که به دو دستهی زیر تقسیم شدهاند:
- مسائل تحلیلمحور (Analysis-centric): نیازمند استدلالهای ریاضی سختگیرانه برای اثبات یک ادعا هستند.
- مسائل ساختار-محور (Construction-centric): علاوه بر توجیه، نیازمند طراحی یک سازهی متناقضنما و معتبر هستند.
ارزیابیها از طریق ترکیبی از نمرهدهی معیارمحور و تأییدهای قطعی انجام شده است. به نقل از دادههای این گزارش، مدل Kimi-K2.6 در دستهی ساختار-محور (Best@4) از GPT-5.5 پیشی گرفت، اما در بخش اثباتهای تحلیلی شکست خورد. این دادهها تأیید میکنند که مسائل «وجود و ساخت» همچنان سختترین چالش برای تمامی مدلهای پیشرو هستند.
برای جامعهی فنی، این کشف فرضیه «یکپارچگی استدلال ریاضی» را میشکند. به نظر میرسد مدلها روی الگوهای زبانیِ اثباتها (Analysis) بیشبودگی دارند، در حالی که منطق مولد برای ساختارهای پیچیده گسسته (Construction) را کسب نکردهاند. این بدان معناست که افزایش حجم دادهها به تنهایی گسست ترکیبیاتی را پر نمیکند و نیازمند رویکردی تخصصی برای استدلال سازنده است.
گام بعدی شما
- رصد عملکرد مدلهای نسل جدید مانند سری o یا R برای بررسی توانایی آنها در پل زدن میان اثبات و ساخت.
- تحلیل تفاوت توکنهای مربوط به استدلال تحلیلی در برابر عملیاتی در مدلهای بازمتن.
- بررسی متدولوژیهای جدید در یادگیری ساختاری (Structural Learning) برای عبور از سقف ۶۵ درصدی.
اما این بنچمارک تنها بخشی از یک بحران بزرگتر در ریاضیات گسسته است؛ برای درک دلیل شکست مدلها در هندسه، به تحلیل ما دربارهی توهمات هندسی مراجعه کنید.



گفتگو