پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۲ مقاله منتشر شده

Dep-LLM و چالش مدل‌های نظارت‌شده: تشخیص افسردگی بدون آموزش مجدد

Dep-LLM و چالش مدل‌های نظارت‌شده: تشخیص افسردگی بدون آموزش مجدد

چارچوب Dep-LLM با تقلید از استدلال‌های روان‌پزشکی، تشخیص افسردگی را بدون نیاز به آموزش یا تنظیم دقیق مدل انجام می‌دهد. این سیستم با تحلیل چندعاملی و وزن‌دهی بر اساس سطح اطمینان،…

۲ دقیقه خواندن
بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

بازیافت پرس‌وجو: مدل ۱.۷ میلیاردی با دقت مدل‌های ۷ میلیاردی در جست‌وجوی پیچیده

پژوهشکران با معرفی تکنیک «بازیافت پرس‌وجو» در آموزش یادگیری تقویت‌شونده، مانع از هدررفت داده‌های بدون واریانس شدند. این روش به یک مدل ۱.۷ میلیارد پارامتری اجازه داد تا در پاسخ به…

۱ دقیقه خواندن
چگونه RL رویداد-محور گسست زمانی در تولید نیمه‌رساناها را مدیریت می‌کند؟

چگونه RL رویداد-محور گسست زمانی در تولید نیمه‌رساناها را مدیریت می‌کند؟

یک چارچوب جدید یادگیری تقویت عمیق با جایگزینی گام‌های زمانی ثابت با رویدادهای گسسته، مشکل بازخورد تأخیری در تولید تراشه‌ها را حل کرده است. این رویکرد منجر به افزایش محسوس بهره‌وری…

۱ دقیقه خواندن
چرا حافظه GPU سد اصلی در مسیر تنظیم دقیق مدل‌های زبانی است؟

چرا حافظه GPU سد اصلی در مسیر تنظیم دقیق مدل‌های زبانی است؟

یک بررسی فنی جدید استدلال می‌کند که بهره‌وری در مدل‌های زبانی بزرگ نتیجه‌ی ترکیب بهینه داده، حافظه و محاسبات است، نه ترفندهای مجزا. این پژوهش نشان می‌دهد حافظه GPU، و نه قدرت…

۲ دقیقه خواندن
نشت اطلاعات خوش‌خیم: راهکاری برای کاهش «مالیات تفسیرپذیری» در مدل‌های مفهومی

نشت اطلاعات خوش‌خیم: راهکاری برای کاهش «مالیات تفسیرپذیری» در مدل‌های مفهومی

پژوهش‌های جدید نشان می‌دهد تلاش برای حذف کامل «نشت اطلاعات» در مدل‌های مفهومی، مانع از عملکرد بهینه آن‌ها می‌شود. با پذیرش نشت اطلاعات خوش‌خیم، مدل‌ها می‌توانند دقت خود را حفظ…

۱ دقیقه خواندن
ImageTime: اندازه‌گیری نرخ شکست مدل‌های تولید تصویر در منطق زمانی-مکانی

ImageTime: اندازه‌گیری نرخ شکست مدل‌های تولید تصویر در منطق زمانی-مکانی

بنچمارک جدیدی به نام ImageTime توانایی مدل‌های تولید تصویر را در حفظ سازگاری بصری و علّی در توالی‌های زمانی چهار مرحله‌ای می‌سنجد. این ارزیابی با استفاده از GPT-5.5 به‌عنوان داور،…

۲ دقیقه خواندن
رمزگشایی از BFQ: حذف گام‌های تکراری Denoising در RL آفلاین بدون افت عملکرد

رمزگشایی از BFQ: حذف گام‌های تکراری Denoising در RL آفلاین بدون افت عملکرد

چارچوب جدید Bootstrapped Flow Q-Learning (BFQ) امکان تولید تک‌گامی کنش‌ها را در یادگیری تقویت‌شده آفلاین فراهم می‌کند. این روش نیاز به فرآیندهای هزینه‌بر حذف نویز و شبکه‌های کمکی…

۱ دقیقه خواندن
اتوماسیون تولید مش‌های چهارضلعی با معماری عامل‌محور Dmsh

اتوماسیون تولید مش‌های چهارضلعی با معماری عامل‌محور Dmsh

چارچوب Dmsh با استفاده از یادگیری تقویت‌شده، فرآیند تجزیه هندسی و تولید مش‌های چهارضلعی را به‌طور کامل خودکار می‌کند. این سیستم با بهره‌گیری از سه عامل هماهنگ، نیاز به تنظیمات…

۱ دقیقه خواندن
NOVA: جهش ۲۹.۸ درصدی در دقت پیش‌بینی تغییر خط با رگرسیون نمادین

NOVA: جهش ۲۹.۸ درصدی در دقت پیش‌بینی تغییر خط با رگرسیون نمادین

چارچوب NOVA با استفاده از رگرسیون نمادین، مدل‌های ریاضی تفسیری از رفتار رانندگی انسان را مستخرج می‌کند. این سیستم با تکیه بر موتور Rust، دقتی به‌مراتب بالاتر از مدل‌های عصبی مبهم…

۱ دقیقه خواندن
سازوکار همگرایی MC-O-PI بدون نیاز به به‌روزرسانی یکنواخت وضعیت-کنش

سازوکار همگرایی MC-O-PI بدون نیاز به به‌روزرسانی یکنواخت وضعیت-کنش

پژوهشی جدید ثابت می‌کند که الگوریتم تکرار سیاست خوش‌بینانه مونت‌کارلو (MC-O-PI) برای رسیدن به بهینگی نیازی به مقداردهی اولیه یکنواخت وضعیت‌ها ندارد. این پیشرفت اجازه می‌دهد…

۱ دقیقه خواندن