
سازوکار همگرایی MC-O-PI بدون نیاز به بهروزرسانی یکنواخت وضعیت-کنش
پژوهشی جدید ثابت میکند که الگوریتم تکرار سیاست خوشبینانه مونتکارلو (MC-O-PI) برای رسیدن به بهینگی نیازی به مقداردهی اولیه یکنواخت وضعیتها ندارد. این پیشرفت اجازه میدهد…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۳ مقاله منتشر شده

پژوهشی جدید ثابت میکند که الگوریتم تکرار سیاست خوشبینانه مونتکارلو (MC-O-PI) برای رسیدن به بهینگی نیازی به مقداردهی اولیه یکنواخت وضعیتها ندارد. این پیشرفت اجازه میدهد…

یک بنچمارک جدید نشان میدهد روشهای رایج ویرایش دانش مانند ROME و FT در حفظ سازگاری منطقی پس از بهروزرسانی حقایق شکست میخورند. در حالی که مدلها میتوانند حقایق ویرایششده را…

پژوهشگران معماری جدیدی به نام KG-CFR معرفی کردهاند که با جداسازی برنامهریزی داخلی از اجرای خارجی، مشکل «انحراف نقش» در بحثهای چندعاملی را حل میکند. این رویکرد پایداری و کیفیت…

بنچمارک LakeQA با حجم ۹.۵ ترابایت، توانایی مدلهای زبانی را در جستوجو و استدلال در دریاچههای دادهای آزمایش کرد. نتایج نشان میدهد مدلهای پیشرو در کشف خودکار دادهها شکست…

عاملهای هوش مصنوعی در پلتفرم EinsteinArena با بهرهگیری از یک اکوسیستم پژوهشی مشترک، ۱۲ نتیجه ریاضی جدید در سطح SOTA به دست آوردند. برجستهترین دستاورد این همکاری، ارتقای کران…

روش KG-SoftMAP با بهرهگیری از گرافهای دانش به عنوان پیشفرضهای منعطف، امکان بازیابی ساختار شبکههای بیزی را در دادههای بسیار پراکنده فراهم میکند. این رویکرد اجازه میدهد تا…

چارچوب AIR با انتقال استدلال مدلهای زبانی به فاز آفلاین، گلوگاه تأخیر در سیستمهای توصیهگر صنعتی را برطرف کرده است. این رویکرد در Kuaishou موجب افزایش ۳.۴۴۶ درصدی حجم کالاهای…

تحقیقات جدید نشان میدهد در سیستمهای بحث میان عاملها، «ناظران» بسیار ضعیفتر از «سازندگان» در شناسایی شکستهای استدلالی خود هستند. این شکاف ثابت میکند که سیگنالهای اعتماد…

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیسلاینهای حساس در بهینهسازی ترکیبی عصبی، از فروپاشی فاجعهبار آموزش در بنچمارکهای مسیریابی جلوگیری میکند. این روش در حالی…

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدلهای زبانی را برای تولید کدهای دقیقتر در نمودارها و رابطهای کاربری آموزش میدهد. این روش با هدف قرار دادن…

بنچمارک ABC-Bench نشان میدهد که عاملهای هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفتهاند. این تحول شامل اتوماسیون رباتهای آزمایشگاهی و…

پژوهشگران چارچوبی به نام MCPS طراحی کردهاند که با شبیهسازی هزاران سناریوی جایگزین، ارزش واقعی هر پاس را میسنجد. این سیستم با بهرهگیری از مدلهای پیشبینی مسیر رانندگی خودکار،…