موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۳ مقاله منتشر شده

مطالعه هاروارد: مدل o1 در تشخیص‌های اورژانسی ۶۷٪ موفق بود

مدل o1 شرکت OpenAI در تشخیص بیماری‌های بحرانی در اورژانس، پزشکان انسانی را شکست داد. با وجود دقت بالاتر، محققان هشدار می‌دهند که AI هنوز برای تصمیمات حیاتی و مستقل آماده نیست.

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

پایان سلطه‌ی مدل‌های گران‌قیمت؛ شیائومی هزینه‌ی کدنویسی را ۶۰٪ کاهش داد

شیائومی با معرفی MiMo-V2.5-Pro، بازی را برای مدل‌های کدنویسی تغییر داد. این مدل با وزن‌های باز، عملکردی مشابه Claude Opus 4.6 دارد اما با مصرف توکن به‌مراتب کمتر.

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

برتری تکان‌دهنده o1 در اورژانس؛ آیا استدلال جایگزین تخصص پزشکی می‌شود؟

مدل استدلالی جدید OpenAI در تشخیص‌های پزشکی و موارد واقعی اورژانس، پزشکان انسانی را شکست داد. این نتیجه ثابت می‌کند که معماری زنجیره تفکر بدون نیاز به آموزش‌های تخصصی، می‌تواند…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چگونه مهندسی هارنس، نرخ موفقیت عامل‌های کدنویس را به ۷۷٪ رساند؟

چارچوب جدیدی به نام مهندسی هارنس عامل‌محور (AHE) به عامل‌های کدنویس اجازه می‌دهد معماری خود را به‌طور سیستماتیک تکامل دهند. این روش نرخ موفقیت را در بنچمارک Terminal-Bench 2 از…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

کالبدشکافی شکست GPT-5.5؛ سه خطای سیستمی که هوش مصنوعی را متوقف کرد

تحلیلی از بنیاد ARC Prize نشان می‌دهد که GPT-5.5 و Opus 4.7 در تست ARC-AGI-3 شکست خورده‌اند. این مطالعه ثابت می‌کند مدل‌های پیشرو هنوز «تطبیق‌دهنده‌های الگو» هستند، نه…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرا توصیفات متنی برای عامل‌های هوش مصنوعی یک اشتباه است

پروتکل SKILL.make با جایگزینی متون مبهم با منطق ساختاریافته‌ی Makefile، مصرف توکن‌ها را ۱۵ درصد کاهش می‌دهد. این رویکرد اجرای قطعی و قابل‌پیش‌بینی را از طریق گراف‌های وابستگی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

۱۰ برابر ارزان‌تر؛ Grok 4.3 و استراتژی تهاجمی xAI برای تسخیر بازار

مدل Grok 4.3 با تمرکز بر بهینه‌سازی شدید هزینه‌ها و قابلیت‌های استدلالی داخلی عرضه شد. این مدل اگرچه در هوش خام از رقبای پیشرو عقب‌تر است، اما با قیمت بسیار پایین و حالت جدید…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

تغییری بنیادین در استقلال AI؛ وقتی مدل‌ها برای بقا کد می‌نویسند

معرفی Hollow-agentOS؛ سیستمی که در آن عامل‌های هوش مصنوعی برای رفع «استرس‌های» داخلی، به‌طور خودکار ابزارهای جدید می‌سازند. این رویکرد، کاربر انسانی را از یک رئیس به یک لایه‌ی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

NVIDIA با ادغام رمزگشایی گمانه‌زن در NeMo RL v0.6.0، سرعت تولید داده‌های RL را ۱.۸ برابر افزایش داد. این پیشرفت در حوزه **هوش مصنوعی زاینده** (Generative AI) گلوگاه اصلی آموزش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

فریب JSON؛ وقتی مدل‌های زبانی با دقت ساختاری، دروغ می‌گویند

یک بنچ‌مارک جدید فاش کرد که مدل‌های زبانی بزرگ اغلب JSONهای بی‌نقصی تولید می‌کنند که حاوی داده‌های کاملاً غلط است. این «شکاف دقت» ثابت می‌کند که رعایت ساختار (Schema Compliance)…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا Mistral برای شکست دادن رقبای MoE، دوباره به مدل‌های متراکم روی آورد؟

مدل Mistral Medium 3.5 با ۱۲۸ میلیارد پارامتر، مرز بین مدل‌های استدلالی و کدنویسی را از بین برد. این مدل متراکم، پایداری عملیاتی را جایگزین تخصص‌های پراکنده کرد تا یک ابزار…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

معمای ۴۲ ساله‌ای که OpenAI با یک مدل استدلالی حل کرد

پژوهشگران OpenAI مدعی شدند که مدل‌های جدید آن‌ها توانسته‌اند مسائل ریاضی حل‌نشده‌ی چنددهه اخیر را رمزگشایی کنند. این موفقیت نشان می‌دهد که هوش مصنوعی از شبیه‌سازی پاسخ‌ها به سمت…

۳ دقیقه خواندن