پرخواننده‌ترین‌ها

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

پژوهشی جدید با معرفی یک سیستم مختصاتی ریاضی، بهینه‌سازی سیاست‌های مدل‌های زبانی را به جای ترفندهای تجربی به یک علم تشخیصی تبدیل کرده است. این چارچوب نشان می‌دهد که بسیاری از شکست‌ها در مدل‌های استدلالی ناشی از «خطاهای ترکیبی» هستند که تنها با تغییر تابع پاداش حل نمی‌شوند.

چرا اصلاح تابع پاداش برای حل خطاهای پیچیده در مدل‌های زبانی کافی نیست؟

AgentFairBench: خطای ۲.۴ برابری در روش‌های فعلی اندازه‌گیری سوگیری هوش مصنوعی

چرا دقت AUROC دیگر معیار موفقیت در هوش مصنوعی پزشکی نیست؟

جایگزینی حافظه متنی با کد پایتون؛ رسیدن به دقت ۹۹ درصدی در حافظه عامل‌های AI

چرا تحلیل معنایی متن در پیش‌بینی تغییرات خلقی آینده شکست می‌خورد؟

مدل خودمختاری کنترل‌شده: چارچوب جدید کریستوفر کُک برای کاهش ریسک عامل‌های AI

پدیده Idle-drift در Claude Haiku 4.5؛ وقتی برنامه‌ریزی دقیق به بی‌عملی منجر

چرا ادغام تک‌مرحله‌ای مدل‌های زبانی در وظایف تخصصی شکست می‌خورد؟

چگونه MR-GVNO پیش‌بینی فیزیک سازه‌های پیچیده را به میلی‌ثانیه‌ها رساند

گذار از احتمالات به قطعیت: روش جدید برای جلوگیری از تداخل عامل‌های AI

MGIL: جایگزینی الگوهای سراسری با همسایگی‌های محلی در تکمیل گراف‌های دانش

چگونه EC-Script با عامل‌های سلسله‌مراتبی، مسیر احساسی روایت‌های AI را کنترل

کاهش خطای قیمت‌گذاری ریسک عامل‌های AI از ۱۷ هزار دلار به ۵۶۹ دلار

چرا شکست عامل‌های هوش مصنوعی ناشی از «گم‌شدن در متن» نیست؟

دقت ۹۰ درصدی AdaSTORM در استدلال گراف‌های هزار-گره‌ای بدون ابزار خارجی

لایه‌ی حاکمیتی شش‌بعدی: تفکیک «خرد» از «هوش» در معماری عامل‌های AI

نمره ۹.۶۶ از ۱۰: StateGen توهمات فراخوانی ابزار را در ۶۵ هزار گفتگو حذف کرد

چرا دقت بازسازی در حسگرها معیار فریبنده‌ای برای نمایش واقعیت است؟

ضریب همبستگی ۰.۴۲۱: چرا توانایی حل مسئله معیار دقیقی برای ارزیابی تدریس LLMها

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

تسطیح وجودشناسانه: چرا مدل‌های کثرت‌گرا در بازنمایی معانی شکست می‌خورند؟

گزارش arXiv: بازدهی ۵۹.۳ درصدی LiteOdyssey در تشخیص بیماری‌های فوق‌کمیاب

VibeThinker-3B: رقابت با Gemini 3 Pro در استدلال با ۳ میلیارد پارامتر

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

پولشویی دامنه: سازوکار فریب بنچمارک‌های استدلال حقوقی در مدل‌های زبانی

استانداردسازی تکرارپذیری در ۲۸ روش بازگشت الگوریتمی با RecourseBench

Snaply.ai در برابر Whisperflow؛ کدام ابزار تبدیل صوت به متن برای مک برنده است؟

از ۵۰۰ دلار به ۱۱ دلار؛ سازوکار کاهش ۹۷ درصدی هزینه ترجمه در Global APIs

نقص «نایب سرگردان»: چگونه عامل‌های متا ۲۰ هزار حساب اینستاگرام را لو دادند؟

چگونه استاندارد OKF گوگل، مدیریت متنی عامل‌های هوش مصنوعی را یکسان می‌کند؟