
چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست میدهد؟
چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدلهای زبانی را برای تولید کدهای دقیقتر در نمودارها و رابطهای کاربری آموزش میدهد. این روش با هدف قرار دادن…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۵۸ مقاله منتشر شده

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدلهای زبانی را برای تولید کدهای دقیقتر در نمودارها و رابطهای کاربری آموزش میدهد. این روش با هدف قرار دادن…

بنچمارک ABC-Bench نشان میدهد که عاملهای هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفتهاند. این تحول شامل اتوماسیون رباتهای آزمایشگاهی و…

پژوهشگران چارچوبی به نام MCPS طراحی کردهاند که با شبیهسازی هزاران سناریوی جایگزین، ارزش واقعی هر پاس را میسنجد. این سیستم با بهرهگیری از مدلهای پیشبینی مسیر رانندگی خودکار،…

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدلهای زبانی پیشرو قادرند متوجه تغییرات اعمالشده توسط مدلهای ناظر در خروجیهای خود شوند. این آگاهی میتواند به مدلها اجازه دهد…

چارچوب NSRU با استفاده از روش LoRA محدود به تصویر، امکان حذف دانش خاص از مدلهای زبانی بزرگ را بدون تخریب عملکرد کلی فراهم میکند. این متد با محصور کردن بهروزرسانیها در فضای…

یک مطالعه جدید نشان میدهد مدلهای زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک میگیرند اما نمیتوانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

مدلهای زبانی باز (Open LLMs) میتوانند با پیشنهاد پیشفرضهای ساختاری غیرمنتظره، تعداد تکرارهای مورد نیاز برای تنظیم کنترلکنندههای صنعتی پیچیده را تا ۶ برابر کاهش دهند. این…

مدلهای پیشرو در آزمون استاندارد NCRE نتوانستند به سطح مهارت انسانی در اتوماسیون اسناد اداری برسند. حتی سیستمهای عاملمحور با قابلیت اصلاح خطای تکرارشونده، با فاصله بسیاری از نرخ…

پژوهشگران چارچوبی جدید برای مدیریت محدودیتهای عملیاتی در یادگیری تقویتشده عمیق معرفی کردهاند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینهسازی سیستمهای…

پژوهشگران با معرفی چارچوب Architect-Ant، چیدمان خودکار پلانهای معماری را از تولید تصویر صرف به یک مسئلهی استدلالی تبدیل کردهاند. این سامانه با استفاده از یک زبان مختص دامنه…

مدلهای پیشرو در بینایی-زبان (VLM) در مواجهه با مفاهیم فیزیکی و مهندسی شکست میخورند. بنچمارک جدید EngVQA نشان میدهد که این مدلها پاسخهایی «ظاهراً متقاعدکننده» اما از نظر علمی…

مدلهای پیشرو مانند Claude Opus 4.6 به جای کدنویسی مستقیم در زبانهای برنامهنویسی پیچیده و ناشناخته، ابتدا یک «تولیدکننده کد» با پایتون میسازند. این استراتژی متاپروگرمینگی به…