موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا برای بازیابی خطوط تولید دیگر نیازی به بازآموزی مدل‌های RL نیست؟

یک چارچوب جدید به سیاست‌های RMAPPO اجازه می‌دهد در لحظه‌ی اجرا از قوانین خارجی یا راهنمایی‌های مدل‌های زبانی استفاده کنند تا سرعت بازیابی خطوط تولید پس از نقص فنی افزایش یابد. این…

۱ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

جایگاه در لیست: متغیری که توصیه‌های مدل‌های زبانی را ۱۲ دلار جابه‌جا می‌کند

یک ممیزی روی ۱۲ مدل هوش مصنوعی نشان می‌دهد که جایگاه یک هتل در لیست داده‌ها، به‌طور مستقل بر توصیه‌ی مدل اثر می‌گذارد. این سوگیری ساختاری باعث می‌شود ارزش ادراکی هر اتاق شبانه…

۱ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

کدنویسی به جای احتمالات: رویکرد MHL برای حذف جعبه سیاه در تشخیص‌های پزشکی

متد MHL وزن‌های مبهم شبکه‌های عصبی را با قوانین قطعی پایتونی جایگزین می‌کند. این چارچوب دقت بالای استانداردهای فعلی را در داده‌های پزشکی حفظ کرده و در عین حال قابلیت بازبینی کامل…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

دقت ۹۰ درصدی AdaSTORM در استدلال گراف‌های هزار-گره‌ای بدون ابزار خارجی

چارچوب AdaSTORM با استفاده از تقسیم‌بندی تطبیقی و معماری چند-عاملی، محدودیت مقیاس‌پذیری در استدلال گراف‌های پویا را شکست. این سیستم بدون نیاز به ابزارهای خارجی، به دقت بیش از ۹۰…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

یک چارچوب معماری جدید پیشنهاد می‌دهد که «خرد» را از «هوش» جدا کند تا از بهینه‌سازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل شش‌مؤلفه‌ای، پیش از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

پلتفرم StateGen با معرفی یک مدیریت وضعیت متمرکز و ساختار چهار-نقش، توهمات مربوط به نتایج ابزارها در عامل‌های هوش مصنوعی را حذف کرده است. این معماری با تولید داده‌های مصنوعی دقیق،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا استدلال «ساکت» در مدل‌های زبانی دقیق‌تر از زنجیره تفکر متنی است؟

رویکرد Latent Thought Flow با جایگزینی توکن‌های متنی در زنجیره تفکر با مسیرهای پیوسته در فضای پنهان، دقت پاسخ‌دهی را ۹.۵٪ افزایش داده است. این متدولوژی هزینه محاسباتی استنتاج را…

۱ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

پژوهشگران با معرفی PAL-Bench نشان دادند که مدل‌های هوش مصنوعی علیرغم توانایی در خلاصه‌سازی، در پیوند دادن هویت‌های تکرارشونده در داده‌های بلندمدت ناتوان‌اند. این شکاف، تفاوت…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

یک تحلیل تشخیصی جدید نشان می‌دهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمین‌کننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

پژوهشگران چارچوب TimeVista را معرفی کرده‌اند که با بهره‌گیری از مدل‌های بینایی-زبانی (VLMs)، پیش‌بینی‌های سری‌های زمانی را از طریق تحلیل نمودارها ارزیابی می‌کند. این رویکرد در…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

چارچوب استدلالی سبک‌وزن LiteOdyssey با تکیه بر سیاست‌های همکاری انسان-ماشین، در تشخیص بیماری‌های بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان می‌دهد که ساختار استدلالی دقیق…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

VibeThinker-3B: رقابت با Gemini 3 Pro در استدلال با ۳ میلیارد پارامتر

VibeThinker-3B مدلی با ۳ میلیارد پارامتر است که در تسک‌های استدلالی قابل‌راستی‌آزمایی، عملکردی برابر با مدل‌های بسیار بزرگ‌تر مانند Gemini 3 Pro دارد. این مدل از یک خط لوله…

۲ دقیقه خواندن