پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۳۰ مقاله منتشر شده

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

چارچوب ReCoVLA با استفاده از مدل‌های چندوجهی برای هدایت پاداش‌ها، توانایی ربات‌ها در بازیابی از شکست‌ها را بدون نیاز به بازآموزی سیاست اصلی افزایش می‌دهد. این روش نرخ موفقیت…

۱ دقیقه خواندن
Anything2Skill: تبدیل دانش پراکنده به مهارت‌های اجرایی برای عبور از سد RAG

Anything2Skill: تبدیل دانش پراکنده به مهارت‌های اجرایی برای عبور از سد RAG

چارچوب Anything2Skill با تبدیل دانش خارجی پراکنده به قراردادهای مهارتی ساختاریافته، شکاف بین «خواندن مستندات» و «اجرای وظیفه» را پر می‌کند. این رویکرد باعث افزایش نرخ موفقیت…

۲ دقیقه خواندن
شبیه‌ساز AGENTSERVESIM: کاهش خطای مدل‌سازی سرویس‌دهی عامل‌های LLM به زیر ۶ درصد

شبیه‌ساز AGENTSERVESIM: کاهش خطای مدل‌سازی سرویس‌دهی عامل‌های LLM به زیر ۶ درصد

پژوهشگران ابزاری به نام AGENTSERVESIM را معرفی کرده‌اند که امکان شبیه‌سازی دقیق عملکرد سخت‌افزاری عامل‌های هوش مصنوعی را روی پردازنده‌های معمولی (CPU) فراهم می‌کند. این ابزار با…

۱ دقیقه خواندن
کاهش خطای طراحی مولکولی به ۰.۰۰۰۳ الکترون-ولت با بازخورد استدلالی LLM

کاهش خطای طراحی مولکولی به ۰.۰۰۰۳ الکترون-ولت با بازخورد استدلالی LLM

پژوهشگران چارچوبی برای مدل‌های زبانی ابداع کرده‌اند که به جای امتیازدهی ساده، از منطق فیزیکوشیمیایی برای طراحی مولکول‌ها استفاده می‌کند. این روش در وظایف متوسط به موفقیت ۱۰۰ درصدی…

۱ دقیقه خواندن
Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

چارچوب Reasoning Arena با جایگزینی سیگنال‌های باینری با تورنمنتهای مقایسه‌ای، دقت مدل‌ها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…

۲ دقیقه خواندن
PhysScene: گذار از بازشناسی بصری به استدلال رابطه‌ای در آزمایشگاه‌های فیزیک

PhysScene: گذار از بازشناسی بصری به استدلال رابطه‌ای در آزمایشگاه‌های فیزیک

پژوهشگران مجموعه داده PhysScene را معرفی کردند؛ نخستین گراف صحنه تخصصی برای محیط‌های آزمایشگاهی فیزیک. هدف این پروژه تغییر تمرکز مدل‌ها از روابط مکانی ساده به وابستگی‌های عملکردی…

۱ دقیقه خواندن
PyGeoX: افزایش ۲.۳ برابری دقت حل مسائل هندسی با سیستم پاداش SAR

PyGeoX: افزایش ۲.۳ برابری دقت حل مسائل هندسی با سیستم پاداش SAR

پژوهشگران با معرفی PyGeoX و مکانیزم پاداش SAR، نرخ موفقیت مدل‌های زبانی در حل مسائل پیچیده هندسی را ۲.۳ برابر کردند. این روش با جلوگیری از «پوشش گرادیان‌های پرت»، مانع از توهم مدل…

۱ دقیقه خواندن
دقت ۹۶ درصدی مدل‌های زبانی در مبنی‌سازی اشیاء سه‌بعدی بدون نیاز به آموزش

دقت ۹۶ درصدی مدل‌های زبانی در مبنی‌سازی اشیاء سه‌بعدی بدون نیاز به آموزش

مدل‌های زبانی بزرگ اکنون می‌توانند بدون هیچ آموزشی، اشیاء محیط‌های سه‌بعدی را با دقت ۹۶ درصد به کلاس‌های هستی‌شناسی متصل کنند. این روش با بهره‌گیری از نشانه‌های معنایی در گراف…

۱ دقیقه خواندن
INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

چارچوب جدیدی به نام INFUSER با تغییر رویکرد از داده‌های «سخت» به داده‌های «مؤثر»، مدل‌های هوش مصنوعی را قادر می‌سازد تا برنامه آموزشی خود را به‌طور پویا تکامل دهند. این متد باعث…

۲ دقیقه خواندن