پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

سازوکار همگرایی MC-O-PI بدون نیاز به به‌روزرسانی یکنواخت وضعیت-کنش

سازوکار همگرایی MC-O-PI بدون نیاز به به‌روزرسانی یکنواخت وضعیت-کنش

پژوهشی جدید ثابت می‌کند که الگوریتم تکرار سیاست خوش‌بینانه مونت‌کارلو (MC-O-PI) برای رسیدن به بهینگی نیازی به مقداردهی اولیه یکنواخت وضعیت‌ها ندارد. این پیشرفت اجازه می‌دهد…

۱ دقیقه خواندن
شکاف ۲۴ درصدی در استنتاج منطقی: شکست ROME و FT در ویرایش دانش

شکاف ۲۴ درصدی در استنتاج منطقی: شکست ROME و FT در ویرایش دانش

یک بنچمارک جدید نشان می‌دهد روش‌های رایج ویرایش دانش مانند ROME و FT در حفظ سازگاری منطقی پس از به‌روزرسانی حقایق شکست می‌خورند. در حالی که مدل‌ها می‌توانند حقایق ویرایش‌شده را…

۱ دقیقه خواندن
KG-CFR: کاهش نرخ فروپاشی منطقی در ۹۵٪ از آزمون‌های استرس عامل‌های هوش مصنوعی

KG-CFR: کاهش نرخ فروپاشی منطقی در ۹۵٪ از آزمون‌های استرس عامل‌های هوش مصنوعی

پژوهشگران معماری جدیدی به نام KG-CFR معرفی کرده‌اند که با جداسازی برنامه‌ریزی داخلی از اجرای خارجی، مشکل «انحراف نقش» در بحث‌های چندعاملی را حل می‌کند. این رویکرد پایداری و کیفیت…

۲ دقیقه خواندن
سازوکار KG-SoftMAP در بازیابی ساختار شبکه‌های بیزی از داده‌های پراکنده

سازوکار KG-SoftMAP در بازیابی ساختار شبکه‌های بیزی از داده‌های پراکنده

روش KG-SoftMAP با بهره‌گیری از گراف‌های دانش به عنوان پیش‌فرض‌های منعطف، امکان بازیابی ساختار شبکه‌های بیزی را در داده‌های بسیار پراکنده فراهم می‌کند. این رویکرد اجازه می‌دهد تا…

۱ دقیقه خواندن
چرا استنتاج آفلاین در معماری AIR سرعت توصیه‌های هوش مصنوعی را ۴۰۰ برابر کرد؟

چرا استنتاج آفلاین در معماری AIR سرعت توصیه‌های هوش مصنوعی را ۴۰۰ برابر کرد؟

چارچوب AIR با انتقال استدلال مدل‌های زبانی به فاز آفلاین، گلوگاه تأخیر در سیستم‌های توصیه‌گر صنعتی را برطرف کرده است. این رویکرد در Kuaishou موجب افزایش ۳.۴۴۶ درصدی حجم کالاهای…

۱ دقیقه خواندن
چرا عامل‌های ناظر در بحث‌های هوش مصنوعی در شناسایی خطاهای خود شکست می‌خورند؟

چرا عامل‌های ناظر در بحث‌های هوش مصنوعی در شناسایی خطاهای خود شکست می‌خورند؟

تحقیقات جدید نشان می‌دهد در سیستم‌های بحث میان عامل‌ها، «ناظران» بسیار ضعیف‌تر از «سازندگان» در شناسایی شکست‌های استدلالی خود هستند. این شکاف ثابت می‌کند که سیگنال‌های اعتماد…

۱ دقیقه خواندن
مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیس‌لاین‌های حساس در بهینه‌سازی ترکیبی عصبی، از فروپاشی فاجعه‌بار آموزش در بنچمارک‌های مسیریابی جلوگیری می‌کند. این روش در حالی…

۱ دقیقه خواندن
چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدل‌های زبانی را برای تولید کدهای دقیق‌تر در نمودارها و رابط‌های کاربری آموزش می‌دهد. این روش با هدف قرار دادن…

۲ دقیقه خواندن
چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

بنچمارک ABC-Bench نشان می‌دهد که عامل‌های هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفته‌اند. این تحول شامل اتوماسیون ربات‌های آزمایشگاهی و…

۱ دقیقه خواندن
تخمین ارزش پاس‌های فوتبال با استفاده از مدل‌های رانندگی خودکار

تخمین ارزش پاس‌های فوتبال با استفاده از مدل‌های رانندگی خودکار

پژوهشگران چارچوبی به نام MCPS طراحی کرده‌اند که با شبیه‌سازی هزاران سناریوی جایگزین، ارزش واقعی هر پاس را می‌سنجد. این سیستم با بهره‌گیری از مدل‌های پیش‌بینی مسیر رانندگی خودکار،…

۱ دقیقه خواندن