پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

چرا مقیاس‌پذیری مدل‌های زبانی توهمات حقوقی را درمان نمی‌کند؟

چرا مقیاس‌پذیری مدل‌های زبانی توهمات حقوقی را درمان نمی‌کند؟

خطاهای سیستم‌های هوش مصنوعی حقوقی، مانند استنادهای ساختگی، ریشه در نقص معماری و عدم تطابق بازیابی احتمالی با ساختار سلسله‌مراتبی قوانین دارند. چارچوب پیشنهادی جدید با رویکرد…

۲ دقیقه خواندن
مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانت‌های ریاضیاتی علیه توهمات و حذف داده‌های حیاتی در خلاصه‌های پزشکی ارائه می‌دهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

۲ دقیقه خواندن
چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

پژوهشگران بنچمارک OmniGameArena را برای اندازه‌گیری نحوه بهبود عامل‌های مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کرده‌اند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

۱ دقیقه خواندن
کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

پژوهشگران دریافتند که توکن‌های بصری در مدل‌های چندوجهی پیش از رسیدن به لایه‌های نهایی اشباع می‌شوند. چارچوب DPVR-LF با مسیریابی این توکن‌ها به یک شاخه جانبی، عملکرد مدل را با تنها…

۲ دقیقه خواندن
چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

محققان مجموعه‌داده‌ی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش می‌کند که سیستم‌های فعلی هوش مصنوعی در تشخیص ناهماهنگی‌های تاریخی ظریف و…

۱ دقیقه خواندن
برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

تحلیلی بر مدل‌های بنیادی ویدیو نشان می‌دهد که V-JEPA در درک قوانین فیزیک شهودی را به مدل‌های مبتنی بر انتشار و بازسازی پیشی می‌برد. این یافته‌ها تأیید می‌کند که هدف پیش‌آموزش…

۱ دقیقه خواندن
سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

چارچوب ReCoVLA با استفاده از مدل‌های چندوجهی برای هدایت پاداش‌ها، توانایی ربات‌ها در بازیابی از شکست‌ها را بدون نیاز به بازآموزی سیاست اصلی افزایش می‌دهد. این روش نرخ موفقیت…

۱ دقیقه خواندن
Anything2Skill: تبدیل دانش پراکنده به مهارت‌های اجرایی برای عبور از سد RAG

Anything2Skill: تبدیل دانش پراکنده به مهارت‌های اجرایی برای عبور از سد RAG

چارچوب Anything2Skill با تبدیل دانش خارجی پراکنده به قراردادهای مهارتی ساختاریافته، شکاف بین «خواندن مستندات» و «اجرای وظیفه» را پر می‌کند. این رویکرد باعث افزایش نرخ موفقیت…

۲ دقیقه خواندن
شبیه‌ساز AGENTSERVESIM: کاهش خطای مدل‌سازی سرویس‌دهی عامل‌های LLM به زیر ۶ درصد

شبیه‌ساز AGENTSERVESIM: کاهش خطای مدل‌سازی سرویس‌دهی عامل‌های LLM به زیر ۶ درصد

پژوهشگران ابزاری به نام AGENTSERVESIM را معرفی کرده‌اند که امکان شبیه‌سازی دقیق عملکرد سخت‌افزاری عامل‌های هوش مصنوعی را روی پردازنده‌های معمولی (CPU) فراهم می‌کند. این ابزار با…

۱ دقیقه خواندن
کاهش خطای طراحی مولکولی به ۰.۰۰۰۳ الکترون-ولت با بازخورد استدلالی LLM

کاهش خطای طراحی مولکولی به ۰.۰۰۰۳ الکترون-ولت با بازخورد استدلالی LLM

پژوهشگران چارچوبی برای مدل‌های زبانی ابداع کرده‌اند که به جای امتیازدهی ساده، از منطق فیزیکوشیمیایی برای طراحی مولکول‌ها استفاده می‌کند. این روش در وظایف متوسط به موفقیت ۱۰۰ درصدی…

۱ دقیقه خواندن
Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

چارچوب Reasoning Arena با جایگزینی سیگنال‌های باینری با تورنمنتهای مقایسه‌ای، دقت مدل‌ها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…

۲ دقیقه خواندن