موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

سازوکار همگرایی MC-O-PI بدون نیاز به به‌روزرسانی یکنواخت وضعیت-کنش

پژوهشی جدید ثابت می‌کند که الگوریتم تکرار سیاست خوش‌بینانه مونت‌کارلو (MC-O-PI) برای رسیدن به بهینگی نیازی به مقداردهی اولیه یکنواخت وضعیت‌ها ندارد. این پیشرفت اجازه می‌دهد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

شکاف ۲۴ درصدی در استنتاج منطقی: شکست ROME و FT در ویرایش دانش

یک بنچمارک جدید نشان می‌دهد روش‌های رایج ویرایش دانش مانند ROME و FT در حفظ سازگاری منطقی پس از به‌روزرسانی حقایق شکست می‌خورند. در حالی که مدل‌ها می‌توانند حقایق ویرایش‌شده را…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

KG-CFR: کاهش نرخ فروپاشی منطقی در ۹۵٪ از آزمون‌های استرس عامل‌های هوش مصنوعی

پژوهشگران معماری جدیدی به نام KG-CFR معرفی کرده‌اند که با جداسازی برنامه‌ریزی داخلی از اجرای خارجی، مشکل «انحراف نقش» در بحث‌های چندعاملی را حل می‌کند. این رویکرد پایداری و کیفیت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

بنچمارک LakeQA با حجم ۹.۵ ترابایت، توانایی مدل‌های زبانی را در جست‌وجو و استدلال در دریاچه‌های داده‌ای آزمایش کرد. نتایج نشان می‌دهد مدل‌های پیشرو در کشف خودکار داده‌ها شکست…

۲ دقیقه خواندن

$EinsteinArena و ارتقای کران پایین مسئله kissing number از ۵۹۳ به ۶۰۴$

تحلیل و بررسی تخصصی۳ هفته پیش

EinsteinArena و ارتقای کران پایین مسئله kissing number از ۵۹۳ به ۶۰۴

عامل‌های هوش مصنوعی در پلتفرم EinsteinArena با بهره‌گیری از یک اکوسیستم پژوهشی مشترک، ۱۲ نتیجه ریاضی جدید در سطح SOTA به دست آوردند. برجسته‌ترین دستاورد این همکاری، ارتقای کران…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار KG-SoftMAP در بازیابی ساختار شبکه‌های بیزی از داده‌های پراکنده

روش KG-SoftMAP با بهره‌گیری از گراف‌های دانش به عنوان پیش‌فرض‌های منعطف، امکان بازیابی ساختار شبکه‌های بیزی را در داده‌های بسیار پراکنده فراهم می‌کند. این رویکرد اجازه می‌دهد تا…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا استنتاج آفلاین در معماری AIR سرعت توصیه‌های هوش مصنوعی را ۴۰۰ برابر کرد؟

چارچوب AIR با انتقال استدلال مدل‌های زبانی به فاز آفلاین، گلوگاه تأخیر در سیستم‌های توصیه‌گر صنعتی را برطرف کرده است. این رویکرد در Kuaishou موجب افزایش ۳.۴۴۶ درصدی حجم کالاهای…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عامل‌های ناظر در بحث‌های هوش مصنوعی در شناسایی خطاهای خود شکست می‌خورند؟

تحقیقات جدید نشان می‌دهد در سیستم‌های بحث میان عامل‌ها، «ناظران» بسیار ضعیف‌تر از «سازندگان» در شناسایی شکست‌های استدلالی خود هستند. این شکاف ثابت می‌کند که سیگنال‌های اعتماد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیس‌لاین‌های حساس در بهینه‌سازی ترکیبی عصبی، از فروپاشی فاجعه‌بار آموزش در بنچمارک‌های مسیریابی جلوگیری می‌کند. این روش در حالی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدل‌های زبانی را برای تولید کدهای دقیق‌تر در نمودارها و رابط‌های کاربری آموزش می‌دهد. این روش با هدف قرار دادن…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

بنچمارک ABC-Bench نشان می‌دهد که عامل‌های هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفته‌اند. این تحول شامل اتوماسیون ربات‌های آزمایشگاهی و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

تخمین ارزش پاس‌های فوتبال با استفاده از مدل‌های رانندگی خودکار

پژوهشگران چارچوبی به نام MCPS طراحی کرده‌اند که با شبیه‌سازی هزاران سناریوی جایگزین، ارزش واقعی هر پاس را می‌سنجد. این سیستم با بهره‌گیری از مدل‌های پیش‌بینی مسیر رانندگی خودکار،…

۱ دقیقه خواندن