موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

۸ مدل هوش مصنوعی در ژوئن ۲۰۲۶: بنچمارک، سطوح و رقابت برای رتبه اول

گزارش BenchLM: پیشتازی ۴ امتیازی Claude Opus 4.8 در برابر GPT-5.5

تحلیل فنی هشت مدل پیشرو در ژوئن ۲۰۲۶ نشان‌دهنده شکاف میان قدرت کدنویسی خام و استقلال عامل‌محور است. در حالی که Claude Opus 4.8 در بنچمارک‌های عینی پیشتازی می‌کند، GPT-5.5 همچنان…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مقیاس‌پذیری مدل‌های زبانی توهمات حقوقی را درمان نمی‌کند؟

خطاهای سیستم‌های هوش مصنوعی حقوقی، مانند استنادهای ساختگی، ریشه در نقص معماری و عدم تطابق بازیابی احتمالی با ساختار سلسله‌مراتبی قوانین دارند. چارچوب پیشنهادی جدید با رویکرد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانت‌های ریاضیاتی علیه توهمات و حذف داده‌های حیاتی در خلاصه‌های پزشکی ارائه می‌دهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

پژوهشگران بنچمارک OmniGameArena را برای اندازه‌گیری نحوه بهبود عامل‌های مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کرده‌اند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

پژوهشگران دریافتند که توکن‌های بصری در مدل‌های چندوجهی پیش از رسیدن به لایه‌های نهایی اشباع می‌شوند. چارچوب DPVR-LF با مسیریابی این توکن‌ها به یک شاخه جانبی، عملکرد مدل را با تنها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

محققان مجموعه‌داده‌ی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش می‌کند که سیستم‌های فعلی هوش مصنوعی در تشخیص ناهماهنگی‌های تاریخی ظریف و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

تحلیلی بر مدل‌های بنیادی ویدیو نشان می‌دهد که V-JEPA در درک قوانین فیزیک شهودی را به مدل‌های مبتنی بر انتشار و بازسازی پیشی می‌برد. این یافته‌ها تأیید می‌کند که هدف پیش‌آموزش…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

چارچوب ReCoVLA با استفاده از مدل‌های چندوجهی برای هدایت پاداش‌ها، توانایی ربات‌ها در بازیابی از شکست‌ها را بدون نیاز به بازآموزی سیاست اصلی افزایش می‌دهد. این روش نرخ موفقیت…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

Anything2Skill: تبدیل دانش پراکنده به مهارت‌های اجرایی برای عبور از سد RAG

چارچوب Anything2Skill با تبدیل دانش خارجی پراکنده به قراردادهای مهارتی ساختاریافته، شکاف بین «خواندن مستندات» و «اجرای وظیفه» را پر می‌کند. این رویکرد باعث افزایش نرخ موفقیت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

شبیه‌ساز AGENTSERVESIM: کاهش خطای مدل‌سازی سرویس‌دهی عامل‌های LLM به زیر ۶ درصد

پژوهشگران ابزاری به نام AGENTSERVESIM را معرفی کرده‌اند که امکان شبیه‌سازی دقیق عملکرد سخت‌افزاری عامل‌های هوش مصنوعی را روی پردازنده‌های معمولی (CPU) فراهم می‌کند. این ابزار با…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

کاهش خطای طراحی مولکولی به ۰.۰۰۰۳ الکترون-ولت با بازخورد استدلالی LLM

پژوهشگران چارچوبی برای مدل‌های زبانی ابداع کرده‌اند که به جای امتیازدهی ساده، از منطق فیزیکوشیمیایی برای طراحی مولکول‌ها استفاده می‌کند. این روش در وظایف متوسط به موفقیت ۱۰۰ درصدی…

۱ دقیقه خواندن

$Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی$

تحلیل و بررسی تخصصی۳ هفته پیش

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

چارچوب Reasoning Arena با جایگزینی سیگنال‌های باینری با تورنمنتهای مقایسه‌ای، دقت مدل‌ها در ریاضی و کدنویسی را ۷.۶٪ افزایش داد. این متد ضمن ارتقای عملکرد، هزینه محاسبات تولید را…

۲ دقیقه خواندن