موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۲ مقاله منتشر شده

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

بنچمارک جدید PhysTool-Bench نشان می‌دهد پیشرفته‌ترین مدل‌های چندوجهی در عبور از فراخوانی APIهای دیجیتال به مدیریت ابزارهای فیزیکی شکست می‌خورند. حتی مدل Gemini-3.1-Pro به دلیل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

Dep-LLM و چالش مدل‌های نظارت‌شده: تشخیص افسردگی بدون آموزش مجدد

چارچوب Dep-LLM با تقلید از استدلال‌های روان‌پزشکی، تشخیص افسردگی را بدون نیاز به آموزش یا تنظیم دقیق مدل انجام می‌دهد. این سیستم با تحلیل چندعاملی و وزن‌دهی بر اساس سطح اطمینان،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از Spatial-Omni: تزریق درک سه‌بعدی صدا به مدل‌های زبانی

معرفی روش Spatial-Omni برای ادغام صدای فضایی در مدل‌های زبانی چندوجهی. این سیستم با استفاده از کدگذاری FOA، بدون نیاز به تغییر در رمزگذارهای صوتی اولیه، دقت مکان‌یابی صدا و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

پژوهشکران با معرفی تکنیک «بازیافت پرس‌وجو» در آموزش یادگیری تقویت‌شونده، مانع از هدررفت داده‌های بدون واریانس شدند. این روش به یک مدل ۱.۷ میلیارد پارامتری اجازه داد تا در پاسخ به…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه RL رویداد-محور گسست زمانی در تولید نیمه‌رساناها را مدیریت می‌کند؟

یک چارچوب جدید یادگیری تقویت عمیق با جایگزینی گام‌های زمانی ثابت با رویدادهای گسسته، مشکل بازخورد تأخیری در تولید تراشه‌ها را حل کرده است. این رویکرد منجر به افزایش محسوس بهره‌وری…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا حافظه GPU سد اصلی در مسیر تنظیم دقیق مدل‌های زبانی است؟

یک بررسی فنی جدید استدلال می‌کند که بهره‌وری در مدل‌های زبانی بزرگ نتیجه‌ی ترکیب بهینه داده، حافظه و محاسبات است، نه ترفندهای مجزا. این پژوهش نشان می‌دهد حافظه GPU، و نه قدرت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

نشت اطلاعات خوش‌خیم: راهکاری برای کاهش «مالیات تفسیرپذیری» در مدل‌های مفهومی

پژوهش‌های جدید نشان می‌دهد تلاش برای حذف کامل «نشت اطلاعات» در مدل‌های مفهومی، مانع از عملکرد بهینه آن‌ها می‌شود. با پذیرش نشت اطلاعات خوش‌خیم، مدل‌ها می‌توانند دقت خود را حفظ…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

ImageTime: اندازه‌گیری نرخ شکست مدل‌های تولید تصویر در منطق زمانی-مکانی

بنچمارک جدیدی به نام ImageTime توانایی مدل‌های تولید تصویر را در حفظ سازگاری بصری و علّی در توالی‌های زمانی چهار مرحله‌ای می‌سنجد. این ارزیابی با استفاده از GPT-5.5 به‌عنوان داور،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

رمزگشایی از BFQ: حذف گام‌های تکراری Denoising در RL آفلاین بدون افت عملکرد

چارچوب جدید Bootstrapped Flow Q-Learning (BFQ) امکان تولید تک‌گامی کنش‌ها را در یادگیری تقویت‌شده آفلاین فراهم می‌کند. این روش نیاز به فرآیندهای هزینه‌بر حذف نویز و شبکه‌های کمکی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

اتوماسیون تولید مش‌های چهارضلعی با معماری عامل‌محور Dmsh

چارچوب Dmsh با استفاده از یادگیری تقویت‌شده، فرآیند تجزیه هندسی و تولید مش‌های چهارضلعی را به‌طور کامل خودکار می‌کند. این سیستم با بهره‌گیری از سه عامل هماهنگ، نیاز به تنظیمات…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

NOVA: جهش ۲۹.۸ درصدی در دقت پیش‌بینی تغییر خط با رگرسیون نمادین

چارچوب NOVA با استفاده از رگرسیون نمادین، مدل‌های ریاضی تفسیری از رفتار رانندگی انسان را مستخرج می‌کند. این سیستم با تکیه بر موتور Rust، دقتی به‌مراتب بالاتر از مدل‌های عصبی مبهم…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار همگرایی MC-O-PI بدون نیاز به به‌روزرسانی یکنواخت وضعیت-کنش

پژوهشی جدید ثابت می‌کند که الگوریتم تکرار سیاست خوش‌بینانه مونت‌کارلو (MC-O-PI) برای رسیدن به بهینگی نیازی به مقداردهی اولیه یکنواخت وضعیت‌ها ندارد. این پیشرفت اجازه می‌دهد…

۱ دقیقه خواندن