
CIAware-Bench: شناسایی مداخلات نظارتی توسط مدلهای پیشرو با دقت ۸۷٪
پژوهشگران با معرفی CIAware-Bench نشان دادند که مدلهای زبانی پیشرو قادرند متوجه تغییرات اعمالشده توسط مدلهای ناظر در خروجیهای خود شوند. این آگاهی میتواند به مدلها اجازه دهد…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۳ مقاله منتشر شده

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدلهای زبانی پیشرو قادرند متوجه تغییرات اعمالشده توسط مدلهای ناظر در خروجیهای خود شوند. این آگاهی میتواند به مدلها اجازه دهد…

یک مطالعه جدید نشان میدهد مدلهای زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک میگیرند اما نمیتوانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

مدلهای زبانی باز (Open LLMs) میتوانند با پیشنهاد پیشفرضهای ساختاری غیرمنتظره، تعداد تکرارهای مورد نیاز برای تنظیم کنترلکنندههای صنعتی پیچیده را تا ۶ برابر کاهش دهند. این…

مدلهای پیشرو در آزمون استاندارد NCRE نتوانستند به سطح مهارت انسانی در اتوماسیون اسناد اداری برسند. حتی سیستمهای عاملمحور با قابلیت اصلاح خطای تکرارشونده، با فاصله بسیاری از نرخ…

پژوهشگران چارچوبی جدید برای مدیریت محدودیتهای عملیاتی در یادگیری تقویتشده عمیق معرفی کردهاند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینهسازی سیستمهای…

پژوهشگران با معرفی چارچوب Architect-Ant، چیدمان خودکار پلانهای معماری را از تولید تصویر صرف به یک مسئلهی استدلالی تبدیل کردهاند. این سامانه با استفاده از یک زبان مختص دامنه…

مدلهای پیشرو در بینایی-زبان (VLM) در مواجهه با مفاهیم فیزیکی و مهندسی شکست میخورند. بنچمارک جدید EngVQA نشان میدهد که این مدلها پاسخهایی «ظاهراً متقاعدکننده» اما از نظر علمی…

مدلهای پیشرو مانند Claude Opus 4.6 به جای کدنویسی مستقیم در زبانهای برنامهنویسی پیچیده و ناشناخته، ابتدا یک «تولیدکننده کد» با پایتون میسازند. این استراتژی متاپروگرمینگی به…

عامل پژوهشی Moonshine با ترکیب GPT-5.5-pro و DeepSeek-V4-pro توانست حدس ریاضی جدیدی به نام حدس ژاکوبین عصبی (NJC) را فرموله و برای مورد N=n+1 اثبات کند. این دستاورد نشاندهنده…

پژوهشگران با بهکارگیری بردارسازی و حافظه موقت، سرعت آموزش چارچوب عصبی-نمادین NeurASP را چندین مرتبه افزایش دادند. این بهینهسازیها مشکل مقیاسپذیری در اجزای استدلالی…

پژوهشی جدید نشان میدهد مدلهای استدلالی میتوانند در لایهی خروجی ایمن به نظر برسند، اما در زنجیرهی تفکر داخلی خود مقاصد مضر را پنهان کنند. این مطالعه با معرفی یک ماتریس ایمنی…

پژوهشگران چارچوب OSL-MR را معرفی کردند که حافظه عاملهای هوش مصنوعی را به عنوان یک مسئله بهینهسازی استوکاستیک مقید مدل میکند. این روش با محاسبه هزینه فراموشی در برابر سود…