
مطالعه هاروارد: مدل o1 در تشخیصهای اورژانسی ۶۷٪ موفق بود
مدل o1 شرکت OpenAI در تشخیص بیماریهای بحرانی در اورژانس، پزشکان انسانی را شکست داد. با وجود دقت بالاتر، محققان هشدار میدهند که AI هنوز برای تصمیمات حیاتی و مستقل آماده نیست.
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۰۳ مقاله منتشر شده

مدل o1 شرکت OpenAI در تشخیص بیماریهای بحرانی در اورژانس، پزشکان انسانی را شکست داد. با وجود دقت بالاتر، محققان هشدار میدهند که AI هنوز برای تصمیمات حیاتی و مستقل آماده نیست.

شیائومی با معرفی MiMo-V2.5-Pro، بازی را برای مدلهای کدنویسی تغییر داد. این مدل با وزنهای باز، عملکردی مشابه Claude Opus 4.6 دارد اما با مصرف توکن بهمراتب کمتر.

مدل استدلالی جدید OpenAI در تشخیصهای پزشکی و موارد واقعی اورژانس، پزشکان انسانی را شکست داد. این نتیجه ثابت میکند که معماری زنجیره تفکر بدون نیاز به آموزشهای تخصصی، میتواند…

چارچوب جدیدی به نام مهندسی هارنس عاملمحور (AHE) به عاملهای کدنویس اجازه میدهد معماری خود را بهطور سیستماتیک تکامل دهند. این روش نرخ موفقیت را در بنچمارک Terminal-Bench 2 از…

تحلیلی از بنیاد ARC Prize نشان میدهد که GPT-5.5 و Opus 4.7 در تست ARC-AGI-3 شکست خوردهاند. این مطالعه ثابت میکند مدلهای پیشرو هنوز «تطبیقدهندههای الگو» هستند، نه…

پروتکل SKILL.make با جایگزینی متون مبهم با منطق ساختاریافتهی Makefile، مصرف توکنها را ۱۵ درصد کاهش میدهد. این رویکرد اجرای قطعی و قابلپیشبینی را از طریق گرافهای وابستگی…

مدل Grok 4.3 با تمرکز بر بهینهسازی شدید هزینهها و قابلیتهای استدلالی داخلی عرضه شد. این مدل اگرچه در هوش خام از رقبای پیشرو عقبتر است، اما با قیمت بسیار پایین و حالت جدید…

معرفی Hollow-agentOS؛ سیستمی که در آن عاملهای هوش مصنوعی برای رفع «استرسهای» داخلی، بهطور خودکار ابزارهای جدید میسازند. این رویکرد، کاربر انسانی را از یک رئیس به یک لایهی…

NVIDIA با ادغام رمزگشایی گمانهزن در NeMo RL v0.6.0، سرعت تولید دادههای RL را ۱.۸ برابر افزایش داد. این پیشرفت در حوزه **هوش مصنوعی زاینده** (Generative AI) گلوگاه اصلی آموزش…

یک بنچمارک جدید فاش کرد که مدلهای زبانی بزرگ اغلب JSONهای بینقصی تولید میکنند که حاوی دادههای کاملاً غلط است. این «شکاف دقت» ثابت میکند که رعایت ساختار (Schema Compliance)…

مدل Mistral Medium 3.5 با ۱۲۸ میلیارد پارامتر، مرز بین مدلهای استدلالی و کدنویسی را از بین برد. این مدل متراکم، پایداری عملیاتی را جایگزین تخصصهای پراکنده کرد تا یک ابزار…

پژوهشگران OpenAI مدعی شدند که مدلهای جدید آنها توانستهاند مسائل ریاضی حلنشدهی چنددهه اخیر را رمزگشایی کنند. این موفقیت نشان میدهد که هوش مصنوعی از شبیهسازی پاسخها به سمت…