ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

باید بپذیریم که مدل‌های زبانی پیشرو در مواجهه با ریاضیات گسسته به یک دیوار برخورد کرده‌اند. نتایج جدید نشان می‌دهد تفاوت عمیقی میان «توانایی استدلال برای اثبات» و «توانایی ساخت یک راه حل واقعی» وجود دارد.

این شکاف در بنچمارک جدیدی به نام ComBench آشکار شده است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های استدلالی (Reasoning Models) اشاره کردیم، تصور بر این بود که افزایش مقیاس داده‌ها، تمامی جنبه‌های تفکر ریاضی را پوشش می‌دهد؛ اما ComBench این فرض را به چالش می‌کشد.

طبق گزارش ۱۰ ژوئن ۲۰۲۶ در arxiv.org، مدل‌های زبان بزرگ (LLM) در حل مسائل ترکیبیات (Combinatorics) با محدودیت شدید روبرو هستند. این بنچمارک از ۱۰۰ مسئله‌ی منتخب المپیادی استفاده می‌کند که به دو دسته‌ی زیر تقسیم شده‌اند:

مسائل تحلیل‌محور (Analysis-centric): نیازمند استدلال‌های ریاضی سخت‌گیرانه برای اثبات یک ادعا هستند.
مسائل ساختار-محور (Construction-centric): علاوه بر توجیه، نیازمند طراحی یک سازه‌ی متناقض‌نما و معتبر هستند.

ارزیابی‌ها از طریق ترکیبی از نمره‌دهی معیارمحور و تأییدهای قطعی انجام شده است. به نقل از داده‌های این گزارش، مدل Kimi-K2.6 در دسته‌ی ساختار-محور (Best@4) از GPT-5.5 پیشی گرفت، اما در بخش اثبات‌های تحلیلی شکست خورد. این داده‌ها تأیید می‌کنند که مسائل «وجود و ساخت» همچنان سخت‌ترین چالش برای تمامی مدل‌های پیشرو هستند.

برای جامعه‌ی فنی، این کشف فرضیه «یکپارچگی استدلال ریاضی» را می‌شکند. به نظر می‌رسد مدل‌ها روی الگوهای زبانیِ اثبات‌ها (Analysis) بیش‌بودگی دارند، در حالی که منطق مولد برای ساختارهای پیچیده گسسته (Construction) را کسب نکرده‌اند. این بدان معناست که افزایش حجم داده‌ها به تنهایی گسست ترکیبیاتی را پر نمی‌کند و نیازمند رویکردی تخصصی برای استدلال سازنده است.

گام بعدی شما

رصد عملکرد مدل‌های نسل جدید مانند سری o یا R برای بررسی توانایی آن‌ها در پل زدن میان اثبات و ساخت.
تحلیل تفاوت توکن‌های مربوط به استدلال تحلیلی در برابر عملیاتی در مدل‌های بازمتن.
بررسی متدولوژی‌های جدید در یادگیری ساختاری (Structural Learning) برای عبور از سقف ۶۵ درصدی.

اما این بنچمارک تنها بخشی از یک بحران بزرگ‌تر در ریاضیات گسسته است؛ برای درک دلیل شکست مدل‌ها در هندسه، به تحلیل ما درباره‌ی توهمات هندسی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مسائل تحلیل‌محور (Analysis-centric): نیازمند استدلال‌های ریاضی سخت‌گیرانه برای اثبات یک ادعا هستند.
مسائل ساختار-محور (Construction-centric): علاوه بر توجیه، نیازمند طراحی یک سازه‌ی متناقض‌نما و معتبر هستند.

گام بعدی شما

رصد عملکرد مدل‌های نسل جدید مانند سری o یا R برای بررسی توانایی آن‌ها در پل زدن میان اثبات و ساخت.
تحلیل تفاوت توکن‌های مربوط به استدلال تحلیلی در برابر عملیاتی در مدل‌های بازمتن.
بررسی متدولوژی‌های جدید در یادگیری ساختاری (Structural Learning) برای عبور از سقف ۶۵ درصدی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران