پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

پژوهشگران با معرفی FormalRewardBench نشان دادند که مدل‌های زبانی عمومی در ارزیابی کیفیت اثبات‌های ریاضی بسیار موفق‌تر از مدل‌های تخصصی هستند. این یافته، پیش‌فرض‌های رایج درباره‌ی…

۲ دقیقه خواندن
TimeClaw و معماری تقطیر تجربه: راهکار جدید برای عبور از بن‌بست ابزاری

TimeClaw و معماری تقطیر تجربه: راهکار جدید برای عبور از بن‌بست ابزاری

TimeClaw با تقطیر تجربیات اکتشافی، مانع از توقف عامل‌های هوش مصنوعی پس از یافتن راهکارهای متوسط می‌شود. این چارچوب دقت استدلال در حوزه‌های حساس مانند پیش‌بینی هواشناسی و تحلیل‌های…

۲ دقیقه خواندن
چرا مدل‌های زبانی در پیش‌بینی نیازهای آینده‌ی برنامه‌نویسی شکست می‌خورند؟

چرا مدل‌های زبانی در پیش‌بینی نیازهای آینده‌ی برنامه‌نویسی شکست می‌خورند؟

انسان‌ها برخلاف مدل‌های زبانی، انتزاهات را نه از طریق فشرده‌سازی داده‌های گذشته، بلکه با پیش‌بینی نیازهای آینده می‌سازند. این تفاوت بنیادین در استراتژی شناختی، دلیل برتری انسان در…

۲ دقیقه خواندن
سازوکار HAGE: تبدیل حافظه‌ی ایستا به نقشه‌ی شناختی پویا با یادگیری تقویت‌شده

سازوکار HAGE: تبدیل حافظه‌ی ایستا به نقشه‌ی شناختی پویا با یادگیری تقویت‌شده

چارچوب HAGE جستجوی برداری ایستا در عامل‌های هوش مصنوعی را با گراف‌های حافظه چندرابطه‌ای و وزنی جایگزین می‌کند. این سیستم با استفاده از یادگیری تقویت‌شده برای بهینه‌سازی وزن…

۲ دقیقه خواندن
افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

چارچوب بهینه‌سازی جدیدی به نام EXPO با جایگزینی جریمه‌های ثابت KL و نمونه‌برداری یکنواخت، توانست عملکرد مدل‌های Qwen در استدلال ریاضی را به‌طور چشمگیری ارتقا دهد. این دستاورد نشان…

۲ دقیقه خواندن
سازوکار RADAR: بهینه‌سازی توپولوژی ارتباطی عامل‌ها با مدل‌های انتشار گراف

سازوکار RADAR: بهینه‌سازی توپولوژی ارتباطی عامل‌ها با مدل‌های انتشار گراف

پژوهشگران چارچوب RADAR را معرفی کردند که با استفاده از مدل‌های انتشار گراف، ساختار ارتباطی سیستم‌های چندعاملی را به‌صورت پویا تولید می‌کند. این روش با تطبیق توپولوژی شبکه با هر…

۲ دقیقه خواندن
شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

بنچمارک جدید KnotBench نشان می‌دهد مدل‌های پیشرو در استدلال دیاگرامی گره‌ها، عملکردی نزدیک به حدس تصادفی دارند. این مطالعه یک «شکاف ادراکی-عملیاتی» حیاتی را شناسایی کرده است که در…

۲ دقیقه خواندن
سازوکار M2A: تزریق استدلال ریاضی به عامل‌های هوش مصنوعی بدون آموزش مجدد

سازوکار M2A: تزریق استدلال ریاضی به عامل‌های هوش مصنوعی بدون آموزش مجدد

رویکرد جدید M2A با ادغام پارامترها در فضای تهی، توانایی استدلال ریاضی را به عامل‌های هوش مصنوعی تزریق می‌کند بدون آنکه نیاز به آموزش مجدد باشد. این متد نرخ حل مسائل SWE-Bench در…

۲ دقیقه خواندن
چگونه «عمق تعهد یادگیرای» مدل‌های کوچک را در استدلال از GPT-5.5 پیشتاز کرد؟

چگونه «عمق تعهد یادگیرای» مدل‌های کوچک را در استدلال از GPT-5.5 پیشتاز کرد؟

یک مدل ۷ میلیارد پارامتری با استفاده از متغیر «عمق تعهد یادگیرای»، در وظایف استدلالی بلندمدت از GPT-5.5 و Claude Sonnet پیشی گرفت. این رویکرد با بهینه‌سازی زمان بازطراحی…

۲ دقیقه خواندن
چرا برابری در نتایج هوش مصنوعی، تضمینی برای عدالت در استدلال نیست؟

چرا برابری در نتایج هوش مصنوعی، تضمینی برای عدالت در استدلال نیست؟

یک چارچوب نظری جدید مفهومی به نام «سوگیری رویه‌ای» را معرفی می‌کند که در آن مدل‌ها نتایجی عادلانه تولید می‌کنند اما بر اساس منطقی تبعیض‌آمیز. این پژوهش متدی برای حسابرسی و تضمین…

۲ دقیقه خواندن
چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

ابزار جدیدی به نام کاوشگر فراشناختی نشان می‌دهد که مدل‌های پیشرو می‌توانند در یک بُعد از اطمینان دقیق باشند اما در بُعدی دیگر به‌طور کامل شکست بخورند. این یافته نقطه کوری حیاتی در…

۲ دقیقه خواندن
بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

مدل‌های پیشرو در درک باورهای دیگران موفق‌اند اما در محیط‌های سه‌بعدی نمی‌توانند بر اساس این دانش عمل کنند. بنچمارک جدید EnactToM نشان می‌دهد هفت مدل برتر در تمامی وظایف دشوار…

۲ دقیقه خواندن