موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا مدل‌های تخصصی اثبات ریاضی در ارزیابی کیفیت اثبات شکست می‌خورند؟

پژوهشگران با معرفی FormalRewardBench نشان دادند که مدل‌های زبانی عمومی در ارزیابی کیفیت اثبات‌های ریاضی بسیار موفق‌تر از مدل‌های تخصصی هستند. این یافته، پیش‌فرض‌های رایج درباره‌ی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

TimeClaw و معماری تقطیر تجربه: راهکار جدید برای عبور از بن‌بست ابزاری

TimeClaw با تقطیر تجربیات اکتشافی، مانع از توقف عامل‌های هوش مصنوعی پس از یافتن راهکارهای متوسط می‌شود. این چارچوب دقت استدلال در حوزه‌های حساس مانند پیش‌بینی هواشناسی و تحلیل‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل‌های زبانی در پیش‌بینی نیازهای آینده‌ی برنامه‌نویسی شکست می‌خورند؟

انسان‌ها برخلاف مدل‌های زبانی، انتزاهات را نه از طریق فشرده‌سازی داده‌های گذشته، بلکه با پیش‌بینی نیازهای آینده می‌سازند. این تفاوت بنیادین در استراتژی شناختی، دلیل برتری انسان در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار HAGE: تبدیل حافظه‌ی ایستا به نقشه‌ی شناختی پویا با یادگیری تقویت‌شده

چارچوب HAGE جستجوی برداری ایستا در عامل‌های هوش مصنوعی را با گراف‌های حافظه چندرابطه‌ای و وزنی جایگزین می‌کند. این سیستم با استفاده از یادگیری تقویت‌شده برای بهینه‌سازی وزن…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

افزایش ۱۳.۳۴ درصدی دقت استدلال ریاضی در AIME ۲۰۲۵ با چارچوب EXPO

چارچوب بهینه‌سازی جدیدی به نام EXPO با جایگزینی جریمه‌های ثابت KL و نمونه‌برداری یکنواخت، توانست عملکرد مدل‌های Qwen در استدلال ریاضی را به‌طور چشمگیری ارتقا دهد. این دستاورد نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار RADAR: بهینه‌سازی توپولوژی ارتباطی عامل‌ها با مدل‌های انتشار گراف

پژوهشگران چارچوب RADAR را معرفی کردند که با استفاده از مدل‌های انتشار گراف، ساختار ارتباطی سیستم‌های چندعاملی را به‌صورت پویا تولید می‌کند. این روش با تطبیق توپولوژی شبکه با هر…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

بنچمارک جدید KnotBench نشان می‌دهد مدل‌های پیشرو در استدلال دیاگرامی گره‌ها، عملکردی نزدیک به حدس تصادفی دارند. این مطالعه یک «شکاف ادراکی-عملیاتی» حیاتی را شناسایی کرده است که در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار M2A: تزریق استدلال ریاضی به عامل‌های هوش مصنوعی بدون آموزش مجدد

رویکرد جدید M2A با ادغام پارامترها در فضای تهی، توانایی استدلال ریاضی را به عامل‌های هوش مصنوعی تزریق می‌کند بدون آنکه نیاز به آموزش مجدد باشد. این متد نرخ حل مسائل SWE-Bench در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه «عمق تعهد یادگیرای» مدل‌های کوچک را در استدلال از GPT-5.5 پیشتاز کرد؟

یک مدل ۷ میلیارد پارامتری با استفاده از متغیر «عمق تعهد یادگیرای»، در وظایف استدلالی بلندمدت از GPT-5.5 و Claude Sonnet پیشی گرفت. این رویکرد با بهینه‌سازی زمان بازطراحی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا برابری در نتایج هوش مصنوعی، تضمینی برای عدالت در استدلال نیست؟

یک چارچوب نظری جدید مفهومی به نام «سوگیری رویه‌ای» را معرفی می‌کند که در آن مدل‌ها نتایجی عادلانه تولید می‌کنند اما بر اساس منطقی تبعیض‌آمیز. این پژوهش متدی برای حسابرسی و تضمین…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا Gemini 2.5 Flash در پیش‌بینی دشواری وظایف شکست می‌خورد؟

ابزار جدیدی به نام کاوشگر فراشناختی نشان می‌دهد که مدل‌های پیشرو می‌توانند در یک بُعد از اطمینان دقیق باشند اما در بُعدی دیگر به‌طور کامل شکست بخورند. این یافته نقطه کوری حیاتی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

مدل‌های پیشرو در درک باورهای دیگران موفق‌اند اما در محیط‌های سه‌بعدی نمی‌توانند بر اساس این دانش عمل کنند. بنچمارک جدید EnactToM نشان می‌دهد هفت مدل برتر در تمامی وظایف دشوار…

۲ دقیقه خواندن