
چرا مدلهای تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست میخورند؟
پژوهشگران با معرفی FormalRewardBench نشان دادند که مدلهای زبانی عمومی در ارزیابی کیفیت اثباتهای ریاضی بسیار موفقتر از مدلهای تخصصی هستند. این یافته، پیشفرضهای رایج دربارهی…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۰۷ مقاله منتشر شده

پژوهشگران با معرفی FormalRewardBench نشان دادند که مدلهای زبانی عمومی در ارزیابی کیفیت اثباتهای ریاضی بسیار موفقتر از مدلهای تخصصی هستند. این یافته، پیشفرضهای رایج دربارهی…

TimeClaw با تقطیر تجربیات اکتشافی، مانع از توقف عاملهای هوش مصنوعی پس از یافتن راهکارهای متوسط میشود. این چارچوب دقت استدلال در حوزههای حساس مانند پیشبینی هواشناسی و تحلیلهای…

انسانها برخلاف مدلهای زبانی، انتزاهات را نه از طریق فشردهسازی دادههای گذشته، بلکه با پیشبینی نیازهای آینده میسازند. این تفاوت بنیادین در استراتژی شناختی، دلیل برتری انسان در…

چارچوب HAGE جستجوی برداری ایستا در عاملهای هوش مصنوعی را با گرافهای حافظه چندرابطهای و وزنی جایگزین میکند. این سیستم با استفاده از یادگیری تقویتشده برای بهینهسازی وزن…

چارچوب بهینهسازی جدیدی به نام EXPO با جایگزینی جریمههای ثابت KL و نمونهبرداری یکنواخت، توانست عملکرد مدلهای Qwen در استدلال ریاضی را بهطور چشمگیری ارتقا دهد. این دستاورد نشان…

پژوهشگران چارچوب RADAR را معرفی کردند که با استفاده از مدلهای انتشار گراف، ساختار ارتباطی سیستمهای چندعاملی را بهصورت پویا تولید میکند. این روش با تطبیق توپولوژی شبکه با هر…

بنچمارک جدید KnotBench نشان میدهد مدلهای پیشرو در استدلال دیاگرامی گرهها، عملکردی نزدیک به حدس تصادفی دارند. این مطالعه یک «شکاف ادراکی-عملیاتی» حیاتی را شناسایی کرده است که در…

رویکرد جدید M2A با ادغام پارامترها در فضای تهی، توانایی استدلال ریاضی را به عاملهای هوش مصنوعی تزریق میکند بدون آنکه نیاز به آموزش مجدد باشد. این متد نرخ حل مسائل SWE-Bench در…

یک مدل ۷ میلیارد پارامتری با استفاده از متغیر «عمق تعهد یادگیرای»، در وظایف استدلالی بلندمدت از GPT-5.5 و Claude Sonnet پیشی گرفت. این رویکرد با بهینهسازی زمان بازطراحی…

یک چارچوب نظری جدید مفهومی به نام «سوگیری رویهای» را معرفی میکند که در آن مدلها نتایجی عادلانه تولید میکنند اما بر اساس منطقی تبعیضآمیز. این پژوهش متدی برای حسابرسی و تضمین…

ابزار جدیدی به نام کاوشگر فراشناختی نشان میدهد که مدلهای پیشرو میتوانند در یک بُعد از اطمینان دقیق باشند اما در بُعدی دیگر بهطور کامل شکست بخورند. این یافته نقطه کوری حیاتی در…

مدلهای پیشرو در درک باورهای دیگران موفقاند اما در محیطهای سهبعدی نمیتوانند بر اساس این دانش عمل کنند. بنچمارک جدید EnactToM نشان میدهد هفت مدل برتر در تمامی وظایف دشوار…