
«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدلهای متوسط در خروجیهای JSON
پژوهشی جدید نشان میدهد اجبار مدلهای زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آنها را تا ۲۸ درصد کاهش میدهد. این پدیده که «مالیات استدلال» نامیده شده، نشان…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۷۵ مقاله منتشر شده

پژوهشی جدید نشان میدهد اجبار مدلهای زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آنها را تا ۲۸ درصد کاهش میدهد. این پدیده که «مالیات استدلال» نامیده شده، نشان…

پژوهشی جدید نشان میدهد رتبهبندیهای Elo در مدلهای زبانی با دقت واقعی (Ground-Truth) همبستگی شدیدی دارند. این یافتهها ثابت میکند که اگرچه سوگیریهای استایلی وجود دارند، اما…

چارچوب STRP با حل تضاد میان هزینه ذخیرهسازی و دقت پیشبینی، امکان تخمین ترافیک با رزولوشن بالا را تنها با استفاده از دادههای دانهدرشت فراهم میکند. این مدل با بهرهگیری از…

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویتشده با پاداشهای قابل تأیید، برنامهریز و اجراکننده مدلهای زبانی را بهطور مشترک بهینه میکند. این روش همراستاسازی ساختاری را که…

روش جدید PCI با جایگزینی بازبینیهای مبتنی بر گرادیان با تصویرسازیهای ساختاری، زمان استنتاج را در مسائل TSP تا ۴۰ درصد کاهش میدهد. این متد بدون نیاز به بازآموزی، شکاف بهینگی را…

چارچوب TRL-Bench ثابت میکند که در پردازش دادههای جدولی، ترکیبی از مدلهای متخصص بر یک مدل برنده و جامع برتری دارد. این نتایج، رویکرد ارزیابی مدلها را از «مدلمحوری» به…

بنچمارک جدید IMUG-Bench نشان میدهد مدلهای چندوجهی یکپارچه در حفظ سازگاری طی گفتگوهای طولانی با تصاویر شکست میخورند. این پژوهش ثابت میکند «سوگیری مواجهه» عامل اصلی خطاهاست و…

مدلهای زبانی معمولاً در تولید ایدههای پژوهشی به دلیل اتکای به متنهای «تخت» شکست میخورند. Graph2Idea با تبدیل ادبیات علمی به گرافهای دانش، نرخ نوآوری و امکانپذیری ایدههای…

معماری FF-JEPA با معرفی یک رویکرد سلسلهمراتبی، مشکل فروپاشی مدلهای جهان در برنامهریزیهای بلندمدت را حل کرده است. این مدل با استفاده از یک برنامهریز نهان برای تعیین زیرهدفها،…

چارچوب جدید MASS از شبیهسازیهای اجتماعی تقویتشده با حافظه استفاده میکند تا عاملهای پژوهشی را از سطح ترکیب متون به استدلال تجربی ارتقا دهد. این سیستم توانست نرخ بینش در تولید…

پژوهشگران با معرفی VisShield و مجموعهدادهی OPTIC، چارچوبی برای شناسایی و ماسکگذاری دقیق اطلاعات خصوصی در مدلهای بینایی-زبانی (VLMs) ارائه کردند. این رویکرد ریسک نشت دادههای…

پژوهشگران چارچوبی عاملمحور برای اتوماسیون طراحی موتورهای همگام مغناطیس داخلی (IPMSM) توسعه دادهاند. این سیستم با ترکیب تولید بازیابیافزا (RAG) و رویکرد هیبریدی AI-FEA،…