تحلیل و بررسی تخصصی

چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدل‌های زبانی را برای تولید کدهای دقیق‌تر در نمودارها و رابط‌های کاربری آموزش می‌دهد. این روش با هدف قرار دادن…

تحلیل و بررسی تخصصی۳ هفته پیش

چرا تخصص انسانی دیگر سد دفاعی موثری در برابر تهدیدات زیستی نیست؟

بنچمارک ABC-Bench نشان می‌دهد که عامل‌های هوش مصنوعی اکنون در وظایف حساس امنیت زیستی از عملکرد میانگین متخصصان انسانی پیشی گرفته‌اند. این تحول شامل اتوماسیون ربات‌های آزمایشگاهی و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

تخمین ارزش پاس‌های فوتبال با استفاده از مدل‌های رانندگی خودکار

پژوهشگران چارچوبی به نام MCPS طراحی کرده‌اند که با شبیه‌سازی هزاران سناریوی جایگزین، ارزش واقعی هر پاس را می‌سنجد. این سیستم با بهره‌گیری از مدل‌های پیش‌بینی مسیر رانندگی خودکار،…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

CIAware-Bench: شناسایی مداخلات نظارتی توسط مدل‌های پیشرو با دقت ۸۷٪

پژوهشگران با معرفی CIAware-Bench نشان دادند که مدل‌های زبانی پیشرو قادرند متوجه تغییرات اعمال‌شده توسط مدل‌های ناظر در خروجی‌های خود شوند. این آگاهی می‌تواند به مدل‌ها اجازه دهد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار NSRU: حذف دانش هدفمند بدون تخریب استدلال کلی در مدل‌های زبانی

چارچوب NSRU با استفاده از روش LoRA محدود به تصویر، امکان حذف دانش خاص از مدل‌های زبانی بزرگ را بدون تخریب عملکرد کلی فراهم می‌کند. این متد با محصور کردن به‌روزرسانی‌ها در فضای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از توهمات منطقی؛ چرا مدل‌های زبانی دلیل تصمیمات خود را نمی‌دانند؟

یک مطالعه جدید نشان می‌دهد مدل‌های زبانی دچار «باور سطحی» هستند؛ یعنی تصمیماتی سیستماتیک می‌گیرند اما نمی‌توانند دلایل واقعی این تصمیمات را توضیح دهند. این یافته حاکی از جدایی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مدل‌های زبانی باز ارزیابی‌های تنظیم MIMO را ۶ برابر کاهش می‌دهند؟

مدل‌های زبانی باز (Open LLMs) می‌توانند با پیشنهاد پیش‌فرض‌های ساختاری غیرمنتظره، تعداد تکرارهای مورد نیاز برای تنظیم کنترل‌کننده‌های صنعتی پیچیده را تا ۶ برابر کاهش دهند. این…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عامل‌های هوش مصنوعی در اتوماسیون اداری هنوز با سقف ۶۸.۸٪ متوقف شده‌اند؟

مدل‌های پیشرو در آزمون استاندارد NCRE نتوانستند به سطح مهارت انسانی در اتوماسیون اسناد اداری برسند. حتی سیستم‌های عامل‌محور با قابلیت اصلاح خطای تکرارشونده، با فاصله بسیاری از نرخ…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

عبور از گلوگاه محدودیت‌های MDP با رمزگشایی امتیاز بلمن-تیلور

پژوهشگران چارچوبی جدید برای مدیریت محدودیت‌های عملیاتی در یادگیری تقویت‌شده عمیق معرفی کرده‌اند. این روش با انتقال یادگیری به یک فضای امتیاز پنهان، امکان بهینه‌سازی سیستم‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از Architect-Ant: جایگزینی پیکسل‌ها با استدلال نمادین در چیدمان داخلی

پژوهشگران با معرفی چارچوب Architect-Ant، چیدمان خودکار پلان‌های معماری را از تولید تصویر صرف به یک مسئله‌ی استدلالی تبدیل کرده‌اند. این سامانه با استفاده از یک زبان مختص دامنه…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

مدل‌های پیشرو در بینایی-زبان (VLM) در مواجهه با مفاهیم فیزیکی و مهندسی شکست می‌خورند. بنچمارک جدید EngVQA نشان می‌دهد که این مدل‌ها پاسخ‌هایی «ظاهراً متقاعدکننده» اما از نظر علمی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا تسلط مدل‌های پیشرو بر زبان‌های برنامه‌نویسی ناشناخته حاصل ابزارسازی است؟

مدل‌های پیشرو مانند Claude Opus 4.6 به جای کدنویسی مستقیم در زبان‌های برنامه‌نویسی پیچیده و ناشناخته، ابتدا یک «تولیدکننده کد» با پایتون می‌سازند. این استراتژی متاپروگرمینگی به…

۲ دقیقه خواندن