
«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدلهای متوسط در خروجیهای JSON
پژوهشی جدید نشان میدهد اجبار مدلهای زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آنها را تا ۲۸ درصد کاهش میدهد. این پدیده که «مالیات استدلال» نامیده شده، نشان…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۵ مقاله منتشر شده

پژوهشی جدید نشان میدهد اجبار مدلهای زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آنها را تا ۲۸ درصد کاهش میدهد. این پدیده که «مالیات استدلال» نامیده شده، نشان…

پژوهشی جدید نشان میدهد رتبهبندیهای Elo در مدلهای زبانی با دقت واقعی (Ground-Truth) همبستگی شدیدی دارند. این یافتهها ثابت میکند که اگرچه سوگیریهای استایلی وجود دارند، اما…

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویتشده با پاداشهای قابل تأیید، برنامهریز و اجراکننده مدلهای زبانی را بهطور مشترک بهینه میکند. این روش همراستاسازی ساختاری را که…

روش جدید PCI با جایگزینی بازبینیهای مبتنی بر گرادیان با تصویرسازیهای ساختاری، زمان استنتاج را در مسائل TSP تا ۴۰ درصد کاهش میدهد. این متد بدون نیاز به بازآموزی، شکاف بهینگی را…

بنچمارک جدید IMUG-Bench نشان میدهد مدلهای چندوجهی یکپارچه در حفظ سازگاری طی گفتگوهای طولانی با تصاویر شکست میخورند. این پژوهش ثابت میکند «سوگیری مواجهه» عامل اصلی خطاهاست و…

مدلهای زبانی معمولاً در تولید ایدههای پژوهشی به دلیل اتکای به متنهای «تخت» شکست میخورند. Graph2Idea با تبدیل ادبیات علمی به گرافهای دانش، نرخ نوآوری و امکانپذیری ایدههای…

معماری FF-JEPA با معرفی یک رویکرد سلسلهمراتبی، مشکل فروپاشی مدلهای جهان در برنامهریزیهای بلندمدت را حل کرده است. این مدل با استفاده از یک برنامهریز نهان برای تعیین زیرهدفها،…

چارچوب جدید MASS از شبیهسازیهای اجتماعی تقویتشده با حافظه استفاده میکند تا عاملهای پژوهشی را از سطح ترکیب متون به استدلال تجربی ارتقا دهد. این سیستم توانست نرخ بینش در تولید…

پژوهشگران چارچوبی عاملمحور برای اتوماسیون طراحی موتورهای همگام مغناطیس داخلی (IPMSM) توسعه دادهاند. این سیستم با ترکیب تولید بازیابیافزا (RAG) و رویکرد هیبریدی AI-FEA،…

چارچوب RePO هدف همراستاسازی مدلهای زبانی را از بیشینهسازی پاداش به کمینهسازی حسرت تغییر میدهد. این رویکرد با مدلسازی ترجیحات انسانی به عنوان زیربهینگی نسبی، عملکرد مدلها را…

چارچوب جدید LATTEArena نشان میدهد که ترکیب زنجیره تفکر و جستجوی درختی مونتکارلو، بهینهترین روش برای خودکارسازی مهندسی ویژگیها در دادههای جدولی است. این مطالعه معیارهای…

چارچوب REFLECT با جایگزینی تشخیصهای غیرفعال با یک چرخه آزمایش-و-خطای فعال، نقاط شکست در سیستمهای عاملمحور را شناسایی میکند. این روش بهویژه برای یافتن «خطاهای خاموش» که از دید…