چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

توانایی حل یک مسئله‌ی پیچیده‌ی ریاضی، لزوماً به معنای توانایی قضاوت درباره‌ی کیفیت آن نیست. اگر تصور می‌کنید مدل‌هایی که در اثبات قضایا متخصص شده‌اند، بهترین داوران برای بررسی صحت این اثبات‌ها هستند، باید بدانید که واقعیت کاملاً متفاوت است.

طبق مستندات FormalRewardBench که در ۱۲ می ۲۰۲۶ منتشر شد، شکافی عمیق میان مدل‌های «اثبات‌کننده» و مدل‌های «ارزیاب» وجود دارد. در حال حاضر، مدل‌های عصبی برای اثبات قضایا بر یادگیری تقویت‌شده با پاداش‌های قابل‌راستی‌آزمایی (Reinforcement Learning with Verifiable Rewards - RLVR) تکیه دارند. این سیستم تنها یک سیگنال باینری (درست یا غلط) ارسال می‌کند؛ وضعیتی که به آن تخصیص پراکنده اعتبار (Sparse Credit Assignment) می‌گویند و باعث می‌شود مدل در مواجهه با مسائل دشوار، هیچ بازخوردی درباره‌ی پیشرفت‌های جزئی دریافت نکند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های یادگیری تقویت‌شده اشاره کردیم، برای عبور از این بن‌بست، نیاز به مدل‌های پاداش (Reward Models) است که بتوانند کیفیت اثبات را به صورت ظریف‌تر ارزیابی کنند. به نقل از گزارش arxiv.org، بنچمارک FormalRewardBench شامل ۲۵۰ جفت ترجیحی (Preference Pairs) است که در آن‌ها اثبات‌های درست در برابر نسخه‌های نادرست قرار گرفته‌اند. این نسخه‌های نادرست با ۵ استراتژی تخصصی ساخته شده‌اند:

اشتباهات اجباری و تغییرات نقطه‌ای حداقلی
اثبات‌های نادرست اما مفصل (Verbose)
توجیهات به زبان طبیعی
تزریق کدهای پایتون

نتایج به‌دست‌آمده برخلاف انتظار است. مدل‌های عمومی پیشرو مانند Claude Opus 4.5 با کسب امتیاز ۵۹.۸٪، بالاترین عملکرد را داشتند. در مقابل، مدل‌های تخصصی مانند DeepSeek-Prover-V2-7B با امتیاز ۲۴.۴٪ در بدترین جایگاه قرار گرفتند.

این یافته نشان می‌دهد که «اثبات کردن» و «ارزیابی کردن» دو وظیفه‌ی شناختی متمایز هستند که مسیرهای بهینه‌سازی متفاوتی را می‌طلبند. برای جامعه‌ی پژوهشی، این بدان معناست که صرفاً مقیاس‌بندی مدل‌های تخصصی، راهکار مناسبی برای ساخت مدل‌های پاداش باکیفیت برای نسل بعدی RLVR نیست.

گام بعدی شما

بررسی مجموعه‌داده‌ی FormalRewardBench برای ارزیابی حساسیت مدل‌های پاداش فعلی خود در برابر استراتژی‌های تزریق خطا.
بازنگری در معماری‌های آموزشی برای تفکیک لایه‌ی «تولید اثبات» از لایه‌ی «ارزیابی کیفیت».
مطالعه‌ی اثر مدل‌های Generalist در هدایت مدل‌های Specialist از طریق پاداش‌های متراکم.

اما این شکاف شناختی تنها بخشی از ماجراست؛ اثر این نتایج بر آینده‌ی مدل‌های استدلالی را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

اشتباهات اجباری و تغییرات نقطه‌ای حداقلی
اثبات‌های نادرست اما مفصل (Verbose)
توجیهات به زبان طبیعی
تزریق کدهای پایتون

گام بعدی شما

بررسی مجموعه‌داده‌ی FormalRewardBench برای ارزیابی حساسیت مدل‌های پاداش فعلی خود در برابر استراتژی‌های تزریق خطا.
بازنگری در معماری‌های آموزشی برای تفکیک لایه‌ی «تولید اثبات» از لایه‌ی «ارزیابی کیفیت».
مطالعه‌ی اثر مدل‌های Generalist در هدایت مدل‌های Specialist از طریق پاداش‌های متراکم.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران