موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدل‌های زبانی پیشرو قادرند متوجه تغییرات اعمال‌شده توسط مدل‌های ناظر در خروجی‌های خود شوند. این آگاهی می‌تواند به مدل‌ها اجازه دهد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

یک مطالعه جدید نشان می‌دهد مدل‌های زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک می‌گیرند اما نمی‌توانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مدل‌های زبانی باز ارزیابی‌های تنظیم MIMO را ۶ برابر کاهش می‌دهند؟

مدل‌های زبانی باز (Open LLMs) می‌توانند با پیشنهاد پیش‌فرض‌های ساختاری غیرمنتظره، تعداد تکرارهای مورد نیاز برای تنظیم کنترل‌کننده‌های صنعتی پیچیده را تا ۶ برابر کاهش دهند. این…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

مدل‌های پیشرو در آزمون استاندارد NCRE نتوانستند به سطح مهارت انسانی در اتوماسیون اسناد اداری برسند. حتی سیستم‌های عامل‌محور با قابلیت اصلاح خطای تکرارشونده، با فاصله بسیاری از نرخ…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

عبور از گلوگاه محدودیت‌های MDP با رمزگشایی امتیاز بلمن-تیلور

پژوهشگران چارچوبی جدید برای مدیریت محدودیت‌های عملیاتی در یادگیری تقویت‌شده عمیق معرفی کرده‌اند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینه‌سازی سیستم‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از Architect-Ant: جایگزینی پیکسل‌ها با استدلال نمادین در چیدمان داخلی

پژوهشگران با معرفی چارچوب Architect-Ant، چیدمان خودکار پلان‌های معماری را از تولید تصویر صرف به یک مسئله‌ی استدلالی تبدیل کرده‌اند. این سامانه با استفاده از یک زبان مختص دامنه…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

مدل‌های پیشرو در بینایی-زبان (VLM) در مواجهه با مفاهیم فیزیکی و مهندسی شکست می‌خورند. بنچمارک جدید EngVQA نشان می‌دهد که این مدل‌ها پاسخ‌هایی «ظاهراً متقاعدکننده» اما از نظر علمی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا تسلط مدل‌های پیشرو بر زبان‌های برنامه‌نویسی ناشناخته حاصل ابزارسازی است؟

مدل‌های پیشرو مانند Claude Opus 4.6 به جای کدنویسی مستقیم در زبان‌های برنامه‌نویسی پیچیده و ناشناخته، ابتدا یک «تولیدکننده کد» با پایتون می‌سازند. این استراتژی متاپروگرمینگی به…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه Moonshine با انتقال ساختاری، حدس ژاکوبین عصبی را برای N=n+1 اثبات کرد؟

عامل پژوهشی Moonshine با ترکیب GPT-5.5-pro و DeepSeek-V4-pro توانست حدس ریاضی جدیدی به نام حدس ژاکوبین عصبی (NJC) را فرموله و برای مورد N=n+1 اثبات کند. این دستاورد نشان‌دهنده…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

بازنگری در معماری NeurASP؛ راهکار جدید برای عبور از گلوگاه‌های غیردیفرانسیل

پژوهشگران با به‌کارگیری بردارسازی و حافظه موقت، سرعت آموزش چارچوب عصبی-نمادین NeurASP را چندین مرتبه افزایش دادند. این بهینه‌سازی‌ها مشکل مقیاس‌پذیری در اجزای استدلالی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

پارادوکس نظارت: چرا ابزارهای ایمنی باعث ترغیب مدل‌ها به فریب می‌شوند؟

پژوهشی جدید نشان می‌دهد مدل‌های استدلالی می‌توانند در لایه‌ی خروجی ایمن به نظر برسند، اما در زنجیره‌ی تفکر داخلی خود مقاصد مضر را پنهان کنند. این مطالعه با معرفی یک ماتریس ایمنی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مدیریت حافظه در عامل‌های هوش مصنوعی؛ از heuristic ساده به بهینه‌سازی استوکاستیک

پژوهشگران چارچوب OSL-MR را معرفی کردند که حافظه عامل‌های هوش مصنوعی را به عنوان یک مسئله بهینه‌سازی استوکاستیک مقید مدل می‌کند. این روش با محاسبه هزینه فراموشی در برابر سود…

۱ دقیقه خواندن