پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا برای بازیابی خطوط تولید دیگر نیازی به بازآموزی مدل‌های RL نیست؟

چرا برای بازیابی خطوط تولید دیگر نیازی به بازآموزی مدل‌های RL نیست؟

یک چارچوب جدید به سیاست‌های RMAPPO اجازه می‌دهد در لحظه‌ی اجرا از قوانین خارجی یا راهنمایی‌های مدل‌های زبانی استفاده کنند تا سرعت بازیابی خطوط تولید پس از نقص فنی افزایش یابد. این…

۱ دقیقه خواندن۱
جایگاه در لیست: متغیری که توصیه‌های مدل‌های زبانی را ۱۲ دلار جابه‌جا می‌کند

جایگاه در لیست: متغیری که توصیه‌های مدل‌های زبانی را ۱۲ دلار جابه‌جا می‌کند

یک ممیزی روی ۱۲ مدل هوش مصنوعی نشان می‌دهد که جایگاه یک هتل در لیست داده‌ها، به‌طور مستقل بر توصیه‌ی مدل اثر می‌گذارد. این سوگیری ساختاری باعث می‌شود ارزش ادراکی هر اتاق شبانه…

۱ دقیقه خواندن۱
کدنویسی به جای احتمالات: رویکرد MHL برای حذف جعبه سیاه در تشخیص‌های پزشکی

کدنویسی به جای احتمالات: رویکرد MHL برای حذف جعبه سیاه در تشخیص‌های پزشکی

متد MHL وزن‌های مبهم شبکه‌های عصبی را با قوانین قطعی پایتونی جایگزین می‌کند. این چارچوب دقت بالای استانداردهای فعلی را در داده‌های پزشکی حفظ کرده و در عین حال قابلیت بازبینی کامل…

۲ دقیقه خواندن۱
دقت ۹۰ درصدی AdaSTORM در استدلال گراف‌های هزار-گره‌ای بدون ابزار خارجی

دقت ۹۰ درصدی AdaSTORM در استدلال گراف‌های هزار-گره‌ای بدون ابزار خارجی

چارچوب AdaSTORM با استفاده از تقسیم‌بندی تطبیقی و معماری چند-عاملی، محدودیت مقیاس‌پذیری در استدلال گراف‌های پویا را شکست. این سیستم بدون نیاز به ابزارهای خارجی، به دقت بیش از ۹۰…

۱ دقیقه خواندن
لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

یک چارچوب معماری جدید پیشنهاد می‌دهد که «خرد» را از «هوش» جدا کند تا از بهینه‌سازی کورکورانه اهداف مضر جلوگیری شود. این سیستم از طریق یک لایه حاکمیتی و یک توپل شش‌مؤلفه‌ای، پیش از…

۲ دقیقه خواندن
نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

پلتفرم StateGen با معرفی یک مدیریت وضعیت متمرکز و ساختار چهار-نقش، توهمات مربوط به نتایج ابزارها در عامل‌های هوش مصنوعی را حذف کرده است. این معماری با تولید داده‌های مصنوعی دقیق،…

۲ دقیقه خواندن
چرا استدلال «ساکت» در مدل‌های زبانی دقیق‌تر از زنجیره تفکر متنی است؟

چرا استدلال «ساکت» در مدل‌های زبانی دقیق‌تر از زنجیره تفکر متنی است؟

رویکرد Latent Thought Flow با جایگزینی توکن‌های متنی در زنجیره تفکر با مسیرهای پیوسته در فضای پنهان، دقت پاسخ‌دهی را ۹.۵٪ افزایش داده است. این متدولوژی هزینه محاسباتی استنتاج را…

۱ دقیقه خواندن۱
PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

پژوهشگران با معرفی PAL-Bench نشان دادند که مدل‌های هوش مصنوعی علیرغم توانایی در خلاصه‌سازی، در پیوند دادن هویت‌های تکرارشونده در داده‌های بلندمدت ناتوان‌اند. این شکاف، تفاوت…

۲ دقیقه خواندن۱
ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

یک تحلیل تشخیصی جدید نشان می‌دهد توانایی یک مدل زبانی در حل مسائل پیچیده، تضمین‌کننده اثرگذاری آن در تدریس نیست. محققان با استفاده از MathTutorBench دریافتند که معیارهای «حل…

۱ دقیقه خواندن
TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

پژوهشگران چارچوب TimeVista را معرفی کرده‌اند که با بهره‌گیری از مدل‌های بینایی-زبانی (VLMs)، پیش‌بینی‌های سری‌های زمانی را از طریق تحلیل نمودارها ارزیابی می‌کند. این رویکرد در…

۱ دقیقه خواندن
گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

چارچوب استدلالی سبک‌وزن LiteOdyssey با تکیه بر سیاست‌های همکاری انسان-ماشین، در تشخیص بیماری‌های بسیار نادر از GPT-5.4 پیشی گرفت. این دستاورد نشان می‌دهد که ساختار استدلالی دقیق…

۲ دقیقه خواندن