پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۵ مقاله منتشر شده

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

«مالیات استدلال»: کاهش ۲۸ درصدی دقت مدل‌های متوسط در خروجی‌های JSON

پژوهشی جدید نشان می‌دهد اجبار مدل‌های زبانی متوسط به تولید خروجی ساختاریافته (JSON)، دقت استدلالی آن‌ها را تا ۲۸ درصد کاهش می‌دهد. این پدیده که «مالیات استدلال» نامیده شده، نشان…

۲ دقیقه خواندن
حل شکاف میان برنامه‌ریز و اجراکننده در LLMها با رویکرد بهینه‌سازی مشترک CAHL

حل شکاف میان برنامه‌ریز و اجراکننده در LLMها با رویکرد بهینه‌سازی مشترک CAHL

رویکرد جدیدی به نام CAHL از طریق یادگیری تقویت‌شده با پاداش‌های قابل تأیید، برنامه‌ریز و اجراکننده مدل‌های زبانی را به‌طور مشترک بهینه می‌کند. این روش همراستاسازی ساختاری را که…

۱ دقیقه خواندن
PCI: کاهش ۴۰ درصدی زمان استنتاج در مسئله فروشنده دوره‌گرد با حذف جستجوی گرادیان

PCI: کاهش ۴۰ درصدی زمان استنتاج در مسئله فروشنده دوره‌گرد با حذف جستجوی گرادیان

روش جدید PCI با جایگزینی بازبینی‌های مبتنی بر گرادیان با تصویرسازی‌های ساختاری، زمان استنتاج را در مسائل TSP تا ۴۰ درصد کاهش می‌دهد. این متد بدون نیاز به بازآموزی، شکاف بهینگی را…

۱ دقیقه خواندن
تحلیل ۱۲ هزار نوبت تعامل: افشای سوگیری تولید در مدل‌های چندوجهی یکپارچه

تحلیل ۱۲ هزار نوبت تعامل: افشای سوگیری تولید در مدل‌های چندوجهی یکپارچه

بنچمارک جدید IMUG-Bench نشان می‌دهد مدل‌های چندوجهی یکپارچه در حفظ سازگاری طی گفتگوهای طولانی با تصاویر شکست می‌خورند. این پژوهش ثابت می‌کند «سوگیری مواجهه‌» عامل اصلی خطاهاست و…

۲ دقیقه خواندن
Graph2Idea: ارتقای نرخ نوآوری ایده‌های علمی از ۰.۴۵ به ۰.۵۲ با گراف‌های دانش

Graph2Idea: ارتقای نرخ نوآوری ایده‌های علمی از ۰.۴۵ به ۰.۵۲ با گراف‌های دانش

مدل‌های زبانی معمولاً در تولید ایده‌های پژوهشی به دلیل اتکای به متن‌های «تخت» شکست می‌خورند. Graph2Idea با تبدیل ادبیات علمی به گراف‌های دانش، نرخ نوآوری و امکان‌پذیری ایده‌های…

۲ دقیقه خواندن
توقف فروپاشی مدل‌های جهان با مکانیسم زیرهدف‌های سلسله‌مراتبی در FF-JEPA

توقف فروپاشی مدل‌های جهان با مکانیسم زیرهدف‌های سلسله‌مراتبی در FF-JEPA

معماری FF-JEPA با معرفی یک رویکرد سلسله‌مراتبی، مشکل فروپاشی مدل‌های جهان در برنامه‌ریزی‌های بلندمدت را حل کرده است. این مدل با استفاده از یک برنامه‌ریز نهان برای تعیین زیرهدف‌ها،…

۱ دقیقه خواندن
افزایش ۱۷.۱۹ درصدی بینش تجربی در پژوهش‌های علوم اجتماعی با چارچوب MASS

افزایش ۱۷.۱۹ درصدی بینش تجربی در پژوهش‌های علوم اجتماعی با چارچوب MASS

چارچوب جدید MASS از شبیه‌سازی‌های اجتماعی تقویت‌شده با حافظه استفاده می‌کند تا عامل‌های پژوهشی را از سطح ترکیب متون به استدلال تجربی ارتقا دهد. این سیستم توانست نرخ بینش در تولید…

۱ دقیقه خواندن
ترکیب AI و FEA در سیستم‌های چندعاملی برای حذف گلوگاه‌های محاسباتی طراحی موتور

ترکیب AI و FEA در سیستم‌های چندعاملی برای حذف گلوگاه‌های محاسباتی طراحی موتور

پژوهشگران چارچوبی عامل‌محور برای اتوماسیون طراحی موتورهای همگام مغناطیس داخلی (IPMSM) توسعه داده‌اند. این سیستم با ترکیب تولید بازیابی‌افزا (RAG) و رویکرد هیبریدی AI-FEA،…

۲ دقیقه خواندن
RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

چارچوب RePO هدف همراستاسازی مدل‌های زبانی را از بیشینه‌سازی پاداش به کمینه‌سازی حسرت تغییر می‌دهد. این رویکرد با مدل‌سازی ترجیحات انسانی به عنوان زیربهینگی نسبی، عملکرد مدل‌ها را…

۱ دقیقه خواندن
چرا ترکیب زنجیره تفکر و MCTS در مهندسی ویژگی‌های جدولی بهین‌ترین بازدهی را دارد؟

چرا ترکیب زنجیره تفکر و MCTS در مهندسی ویژگی‌های جدولی بهین‌ترین بازدهی را دارد؟

چارچوب جدید LATTEArena نشان می‌دهد که ترکیب زنجیره تفکر و جستجوی درختی مونت‌کارلو، بهینه‌ترین روش برای خودکارسازی مهندسی ویژگی‌ها در داده‌های جدولی است. این مطالعه معیارهای…

۱ دقیقه خواندن
فراتر از داوران LLM: مکانیسم «مداخلاتی» برای ردیابی خطاهای خاموش در عامل‌ها

فراتر از داوران LLM: مکانیسم «مداخلاتی» برای ردیابی خطاهای خاموش در عامل‌ها

چارچوب REFLECT با جایگزینی تشخیص‌های غیرفعال با یک چرخه آزمایش-و-خطای فعال، نقاط شکست در سیستم‌های عامل‌محور را شناسایی می‌کند. این روش به‌ویژه برای یافتن «خطاهای خاموش» که از دید…

۱ دقیقه خواندن