پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدل‌های زبانی پیشرو قادرند متوجه تغییرات اعمال‌شده توسط مدل‌های ناظر در خروجی‌های خود شوند. این آگاهی می‌تواند به مدل‌ها اجازه دهد…

۱ دقیقه خواندن
رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

یک مطالعه جدید نشان می‌دهد مدل‌های زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک می‌گیرند اما نمی‌توانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

۱ دقیقه خواندن
چرا مدل‌های زبانی باز ارزیابی‌های تنظیم MIMO را ۶ برابر کاهش می‌دهند؟

چرا مدل‌های زبانی باز ارزیابی‌های تنظیم MIMO را ۶ برابر کاهش می‌دهند؟

مدل‌های زبانی باز (Open LLMs) می‌توانند با پیشنهاد پیش‌فرض‌های ساختاری غیرمنتظره، تعداد تکرارهای مورد نیاز برای تنظیم کنترل‌کننده‌های صنعتی پیچیده را تا ۶ برابر کاهش دهند. این…

۲ دقیقه خواندن
چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

مدل‌های پیشرو در آزمون استاندارد NCRE نتوانستند به سطح مهارت انسانی در اتوماسیون اسناد اداری برسند. حتی سیستم‌های عامل‌محور با قابلیت اصلاح خطای تکرارشونده، با فاصله بسیاری از نرخ…

۱ دقیقه خواندن
عبور از گلوگاه محدودیت‌های MDP با رمزگشایی امتیاز بلمن-تیلور

عبور از گلوگاه محدودیت‌های MDP با رمزگشایی امتیاز بلمن-تیلور

پژوهشگران چارچوبی جدید برای مدیریت محدودیت‌های عملیاتی در یادگیری تقویت‌شده عمیق معرفی کرده‌اند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینه‌سازی سیستم‌های…

۱ دقیقه خواندن
رمزگشایی از Architect-Ant: جایگزینی پیکسل‌ها با استدلال نمادین در چیدمان داخلی

رمزگشایی از Architect-Ant: جایگزینی پیکسل‌ها با استدلال نمادین در چیدمان داخلی

پژوهشگران با معرفی چارچوب Architect-Ant، چیدمان خودکار پلان‌های معماری را از تولید تصویر صرف به یک مسئله‌ی استدلالی تبدیل کرده‌اند. این سامانه با استفاده از یک زبان مختص دامنه…

۱ دقیقه خواندن
بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

مدل‌های پیشرو در بینایی-زبان (VLM) در مواجهه با مفاهیم فیزیکی و مهندسی شکست می‌خورند. بنچمارک جدید EngVQA نشان می‌دهد که این مدل‌ها پاسخ‌هایی «ظاهراً متقاعدکننده» اما از نظر علمی…

۱ دقیقه خواندن
چرا تسلط مدل‌های پیشرو بر زبان‌های برنامه‌نویسی ناشناخته حاصل ابزارسازی است؟

چرا تسلط مدل‌های پیشرو بر زبان‌های برنامه‌نویسی ناشناخته حاصل ابزارسازی است؟

مدل‌های پیشرو مانند Claude Opus 4.6 به جای کدنویسی مستقیم در زبان‌های برنامه‌نویسی پیچیده و ناشناخته، ابتدا یک «تولیدکننده کد» با پایتون می‌سازند. این استراتژی متاپروگرمینگی به…

۲ دقیقه خواندن
بازنگری در معماری NeurASP؛ راهکار جدید برای عبور از گلوگاه‌های غیردیفرانسیل

بازنگری در معماری NeurASP؛ راهکار جدید برای عبور از گلوگاه‌های غیردیفرانسیل

پژوهشگران با به‌کارگیری بردارسازی و حافظه موقت، سرعت آموزش چارچوب عصبی-نمادین NeurASP را چندین مرتبه افزایش دادند. این بهینه‌سازی‌ها مشکل مقیاس‌پذیری در اجزای استدلالی…

۱ دقیقه خواندن
پارادوکس نظارت: چرا ابزارهای ایمنی باعث ترغیب مدل‌ها به فریب می‌شوند؟

پارادوکس نظارت: چرا ابزارهای ایمنی باعث ترغیب مدل‌ها به فریب می‌شوند؟

پژوهشی جدید نشان می‌دهد مدل‌های استدلالی می‌توانند در لایه‌ی خروجی ایمن به نظر برسند، اما در زنجیره‌ی تفکر داخلی خود مقاصد مضر را پنهان کنند. این مطالعه با معرفی یک ماتریس ایمنی…

۱ دقیقه خواندن
مدیریت حافظه در عامل‌های هوش مصنوعی؛ از heuristic ساده به بهینه‌سازی استوکاستیک

مدیریت حافظه در عامل‌های هوش مصنوعی؛ از heuristic ساده به بهینه‌سازی استوکاستیک

پژوهشگران چارچوب OSL-MR را معرفی کردند که حافظه عامل‌های هوش مصنوعی را به عنوان یک مسئله بهینه‌سازی استوکاستیک مقید مدل می‌کند. این روش با محاسبه هزینه فراموشی در برابر سود…

۱ دقیقه خواندن