توانایی حل یک مسئلهی پیچیدهی ریاضی، لزوماً به معنای توانایی قضاوت دربارهی کیفیت آن نیست. اگر تصور میکنید مدلهایی که در اثبات قضایا متخصص شدهاند، بهترین داوران برای بررسی صحت این اثباتها هستند، باید بدانید که واقعیت کاملاً متفاوت است.
طبق مستندات FormalRewardBench که در ۱۲ می ۲۰۲۶ منتشر شد، شکافی عمیق میان مدلهای «اثباتکننده» و مدلهای «ارزیاب» وجود دارد. در حال حاضر، مدلهای عصبی برای اثبات قضایا بر یادگیری تقویتشده با پاداشهای قابلراستیآزمایی (Reinforcement Learning with Verifiable Rewards - RLVR) تکیه دارند. این سیستم تنها یک سیگنال باینری (درست یا غلط) ارسال میکند؛ وضعیتی که به آن تخصیص پراکنده اعتبار (Sparse Credit Assignment) میگویند و باعث میشود مدل در مواجهه با مسائل دشوار، هیچ بازخوردی دربارهی پیشرفتهای جزئی دریافت نکند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای یادگیری تقویتشده اشاره کردیم، برای عبور از این بنبست، نیاز به مدلهای پاداش (Reward Models) است که بتوانند کیفیت اثبات را به صورت ظریفتر ارزیابی کنند. به نقل از گزارش arxiv.org، بنچمارک FormalRewardBench شامل ۲۵۰ جفت ترجیحی (Preference Pairs) است که در آنها اثباتهای درست در برابر نسخههای نادرست قرار گرفتهاند. این نسخههای نادرست با ۵ استراتژی تخصصی ساخته شدهاند:
- اشتباهات اجباری و تغییرات نقطهای حداقلی
- اثباتهای نادرست اما مفصل (Verbose)
- توجیهات به زبان طبیعی
- تزریق کدهای پایتون
نتایج بهدستآمده برخلاف انتظار است. مدلهای عمومی پیشرو مانند Claude Opus 4.5 با کسب امتیاز ۵۹.۸٪، بالاترین عملکرد را داشتند. در مقابل، مدلهای تخصصی مانند DeepSeek-Prover-V2-7B با امتیاز ۲۴.۴٪ در بدترین جایگاه قرار گرفتند.
این یافته نشان میدهد که «اثبات کردن» و «ارزیابی کردن» دو وظیفهی شناختی متمایز هستند که مسیرهای بهینهسازی متفاوتی را میطلبند. برای جامعهی پژوهشی، این بدان معناست که صرفاً مقیاسبندی مدلهای تخصصی، راهکار مناسبی برای ساخت مدلهای پاداش باکیفیت برای نسل بعدی RLVR نیست.
گام بعدی شما
- بررسی مجموعهدادهی FormalRewardBench برای ارزیابی حساسیت مدلهای پاداش فعلی خود در برابر استراتژیهای تزریق خطا.
- بازنگری در معماریهای آموزشی برای تفکیک لایهی «تولید اثبات» از لایهی «ارزیابی کیفیت».
- مطالعهی اثر مدلهای Generalist در هدایت مدلهای Specialist از طریق پاداشهای متراکم.
اما این شکاف شناختی تنها بخشی از ماجراست؛ اثر این نتایج بر آیندهی مدلهای استدلالی را در گزارش بعدی بررسی خواهیم کرد.




گفتگو