موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۵ مقاله منتشر شده

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

پژوهشی جدید نشان می‌دهد اجبار مدل‌های زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آن‌ها را تا ۲۸ درصد کاهش می‌دهد. این پدیده که «مالیات استدلال» نامیده شده، نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

ArXiv: همبستگی ۰.۹ بین رتبه‌بندی Elo و دقت واقعی مدل‌ها

پژوهشی جدید نشان می‌دهد رتبه‌بندی‌های Elo در مدل‌های زبانی با دقت واقعی (Ground-Truth) همبستگی شدیدی دارند. این یافته‌ها ثابت می‌کند که اگرچه سوگیری‌های استایلی وجود دارند، اما…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

حل شکاف میان برنامه‌ریز و اجراکننده در LLMها با رویکرد بهینه‌سازی مشترک CAHL

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویت‌شده با پاداش‌های قابل تأیید، برنامه‌ریز و اجراکننده مدل‌های زبانی را به‌طور مشترک بهینه می‌کند. این روش همراستاسازی ساختاری را که…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

PCI: کاهش ۴۰ درصدی زمان استنتاج در مسئله فروشنده دوره‌گرد با حذف جستجوی گرادیان

روش جدید PCI با جایگزینی بازبینی‌های مبتنی بر گرادیان با تصویرسازی‌های ساختاری، زمان استنتاج را در مسائل TSP تا ۴۰ درصد کاهش می‌دهد. این متد بدون نیاز به بازآموزی، شکاف بهینگی را…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

تحلیل ۱۲ هزار نوبت تعامل: افشای سوگیری تولید در مدل‌های چندوجهی یکپارچه

بنچمارک جدید IMUG-Bench نشان می‌دهد مدل‌های چندوجهی یکپارچه در حفظ سازگاری طی گفتگوهای طولانی با تصاویر شکست می‌خورند. این پژوهش ثابت می‌کند «سوگیری مواجهه‌» عامل اصلی خطاهاست و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

Graph2Idea: ارتقای نرخ نوآوری ایده‌های علمی از ۰.۴۵ به ۰.۵۲ با گراف‌های دانش

مدل‌های زبانی معمولاً در تولید ایده‌های پژوهشی به دلیل اتکای به متن‌های «تخت» شکست می‌خورند. Graph2Idea با تبدیل ادبیات علمی به گراف‌های دانش، نرخ نوآوری و امکان‌پذیری ایده‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

توقف فروپاشی مدل‌های جهان با مکانیسم زیرهدف‌های سلسله‌مراتبی در FF-JEPA

معماری FF-JEPA با معرفی یک رویکرد سلسله‌مراتبی، مشکل فروپاشی مدل‌های جهان در برنامه‌ریزی‌های بلندمدت را حل کرده است. این مدل با استفاده از یک برنامه‌ریز نهان برای تعیین زیرهدف‌ها،…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

افزایش ۱۷.۱۹ درصدی بینش تجربی در پژوهش‌های علوم اجتماعی با چارچوب MASS

چارچوب جدید MASS از شبیه‌سازی‌های اجتماعی تقویت‌شده با حافظه استفاده می‌کند تا عامل‌های پژوهشی را از سطح ترکیب متون به استدلال تجربی ارتقا دهد. این سیستم توانست نرخ بینش در تولید…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

ترکیب AI و FEA در سیستم‌های چندعاملی برای حذف گلوگاه‌های محاسباتی طراحی موتور

پژوهشگران چارچوبی عامل‌محور برای اتوماسیون طراحی موتورهای همگام مغناطیس داخلی (IPMSM) توسعه داده‌اند. این سیستم با ترکیب تولید بازیابی‌افزا (RAG) و رویکرد هیبریدی AI-FEA،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

چارچوب RePO هدف همراستاسازی مدل‌های زبانی را از بیشینه‌سازی پاداش به کمینه‌سازی حسرت تغییر می‌دهد. این رویکرد با مدل‌سازی ترجیحات انسانی به عنوان زیربهینگی نسبی، عملکرد مدل‌ها را…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا ترکیب زنجیره تفکر و MCTS در مهندسی ویژگی‌های جدولی بهین‌ترین بازدهی را دارد؟

چارچوب جدید LATTEArena نشان می‌دهد که ترکیب زنجیره تفکر و جستجوی درختی مونت‌کارلو، بهینه‌ترین روش برای خودکارسازی مهندسی ویژگی‌ها در داده‌های جدولی است. این مطالعه معیارهای…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

فراتر از داوران LLM: مکانیسم «مداخلاتی» برای ردیابی خطاهای خاموش در عامل‌ها

چارچوب REFLECT با جایگزینی تشخیص‌های غیرفعال با یک چرخه آزمایش-و-خطای فعال، نقاط شکست در سیستم‌های عامل‌محور را شناسایی می‌کند. این روش به‌ویژه برای یافتن «خطاهای خاموش» که از دید…

۱ دقیقه خواندن