پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

عبور از خروجی‌های یکسان؛ NanoResearch چگونه متدولوژی شخصی پژوهشگر را می‌آموزد؟

عبور از خروجی‌های یکسان؛ NanoResearch چگونه متدولوژی شخصی پژوهشگر را می‌آموزد؟

NanoResearch یک چارچوب چند-عاملی جدید است که با شخصی‌سازی خط‌لوله پژوهش، خروجی‌های یکسان مدل‌های زبانی را کنار می‌گذارد. این سیستم از طریق تکامل هم‌زمان بانک مهارت و حافظه،…

۲ دقیقه خواندن
سازوکار RACER: بهینه‌سازی هزینه داوران LLM از طریق مسیریابی مقاوم

سازوکار RACER: بهینه‌سازی هزینه داوران LLM از طریق مسیریابی مقاوم

مدل‌های استدلالی در ارزیابی‌های ساده، قدرت محاسباتی را هدر می‌دهند. چارچوب RACER با مسیریابی پویا، وظایف را به مقرون‌به‌صرفه‌ترین داور می‌سپارد و دقت را حتی در صورت تغییر توزیع…

۲ دقیقه خواندن
چرا برترین عامل‌های هوش مصنوعی در محیط‌های پیچیده از سد ۶۰ درصد عبور نمی‌کنند؟

چرا برترین عامل‌های هوش مصنوعی در محیط‌های پیچیده از سد ۶۰ درصد عبور نمی‌کنند؟

بنچمارک جدید ComplexMCP نشان می‌دهد برترین عامل‌های هوش مصنوعی در محیط‌های ابزاری پیچیده تنها ۶۰ درصد موفقیت دارند، در حالی که این رقم برای انسان‌ها ۹۰ درصد است. این مطالعه…

۲ دقیقه خواندن
گذار از مهندسی پرامپت به مهندسی کنترل؛ راهکار سایبرنتیک برای پایداری عامل‌ها

گذار از مهندسی پرامپت به مهندسی کنترل؛ راهکار سایبرنتیک برای پایداری عامل‌ها

چارچوب جدیدی به نام Agent Cybernetics پیشنهاد می‌کند که به جای آزمون و خطاهای تجربی، از تئوری کنترل کلاسیک برای طراحی عامل‌های هوش مصنوعی استفاده کند. هدف این رویکرد، تضمین…

۲ دقیقه خواندن
گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

گزارش arXiv: متد TRACE دقت استدلال ریاضی را ۲.۷۶ درصد فراتر از GRPO برد

متد جدیدی به نام TRACE با هدف‌گیری توکن‌های حیاتی در فرآیند تقطیر، نرخ خطای مدل‌های استدلالی را کاهش داد. این رویکرد برخلاف روش‌های متراکم، از نشت اطلاعات ممتاز جلوگیری کرده و…

۲ دقیقه خواندن
تبدیل سیاست‌های عصبی به کدهای استاتیک: سازوکار تکامل آگاه از معلم

تبدیل سیاست‌های عصبی به کدهای استاتیک: سازوکار تکامل آگاه از معلم

یک چارچوب تکاملی جدید با استفاده از سیاست‌های بهینه‌سازی‌شده به عنوان «معلم»، الگوریتم‌های اکتشافی (Heuristics) سریع و اجرایی می‌سازد. این سیستم نیاز به استنتاج عصبی در زمان اجرا…

۲ دقیقه خواندن
چرا ناهمواری توانمندی‌های مدل‌های زبانی، کلید جدید اکتشافات علمی است؟

چرا ناهمواری توانمندی‌های مدل‌های زبانی، کلید جدید اکتشافات علمی است؟

پژوهشگران دریافتند که مدل‌های زبانی به‌جای پیشرفت یکنواخت، «ناهمواری» (Jaggedness) در توانمندی‌های خود دارند. با ترکیب این نقاط قوت پراکنده در مجموعه‌های فرا-مدلی، می‌توان…

۲ دقیقه خواندن
افزایش ۵۳ درصدی دقت تفسیر تصمیمات MPC با مدل استنتاج علّی سلسله‌مراتبی

افزایش ۵۳ درصدی دقت تفسیر تصمیمات MPC با مدل استنتاج علّی سلسله‌مراتبی

پژوهشگران چارچوب جدیدی به نام استنتاج علّی سلسله‌مراتبی (HCA) معرفی کرده‌اند که تصمیمات مبهم سیستم‌های کنترل پیش‌بین را قابل‌تفسیر می‌کند. این روش با ترکیب فیزیک و داده‌های…

۲ دقیقه خواندن
سازوکار Deep Arguing: تبدیل پیش‌بینی‌های جعبه‌سیاه به استدلال‌های منطقی و شفاف

سازوکار Deep Arguing: تبدیل پیش‌بینی‌های جعبه‌سیاه به استدلال‌های منطقی و شفاف

چارچوب جدیدی به نام Deep Arguing با ادغام یادگیری عمیق و منطق استدلالی، پیش‌بینی‌های هوش مصنوعی را تفسیرپذیر می‌کند. این مدل بدون کاهش دقت، داده‌ها را به عنوان استدلال‌هایی برای…

۲ دقیقه خواندن
استخراج استدلال؛ سازوکاری برای کاهش توهمات مدل‌های زبانی در روایت‌های سلامت

استخراج استدلال؛ سازوکاری برای کاهش توهمات مدل‌های زبانی در روایت‌های سلامت

پژوهشگران با ترکیب استخراج استدلال و گراف‌های دانش، سیستمی برای کاهش توهمات مدل‌های زبانی در روایت‌های سلامت سالمندان طراحی کرده‌اند. این معماری بازتابی تضمین می‌کند که داستان‌های…

۲ دقیقه خواندن
رمزگشایی از شکاف دانش و اجرا در عامل‌های هوش مصنوعی با معیارهای سطح-مسیر

رمزگشایی از شکاف دانش و اجرا در عامل‌های هوش مصنوعی با معیارهای سطح-مسیر

یک چارچوب آماری جدید، ارزیابی عامل‌های هوش مصنوعی را از نرخ‌های ساده‌ی موفقیت/شکست به سنجش ثبات در سطح مسیر تغییر می‌دهد. این متد به توسعه‌دهندگان اجازه می‌دهد تفاوت میان دانش مدل…

۲ دقیقه خواندن