موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۳۰ مقاله منتشر شده

کلود فیبل انثروپیک؛ نسخه‌ای از میتوس که امروز در دسترس عموم است

چرا Anthropic برای دستیابی به دقت ۹۰٪، حریم خصوصی شرکت‌ها را قربانی کرد؟

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیل‌های پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکن‌ها را دو برابر کرده و ذخیره اجباری داده‌ها برای ۳۰ روز را…

۴ دقیقه خواندن

معرفی North Mini Code، نخستین مدل Cohere برای توسعه‌دهندگان

آموزش کاربردی۳ هفته پیش

چگونه مدل ۳۰ میلیاردی North Mini Code غول‌های ۱۲۰ میلیاردی کدنویسی را شکست داد؟

شرکت Cohere مدل North Mini Code را معرفی کرد؛ یک مدل ۳۰ میلیاردی که در مهندسی نرم‌افزار عامل‌محور، عملکرد مدل‌های ۱۲۰ میلیاردی را پشت سر می‌گذارد. این دستاورد مدیون استفاده از…

۹ دقیقه خواندن

نمودار معماری عوامل پایدار با تأیید، درخت کار، مهارت، زیرعامل و بازبینی انسانی

آموزش کاربردی۳ هفته پیش

چگونه Atomic با استفاده از TypeScript جلوی توهم عامل‌های کدنویسی را می‌گیرد؟

بسیاری از عامل‌های کدنویسی در وظایف پیچیده شکست می‌خورند چون محدودیت ساختاری ندارند. Atomic با ایجاد یک لایه اجرایی در TypeScript، کنترل دقیق‌تری بر توکن‌ها و خروجی مدل‌ها ایجاد…

۱۵ دقیقه خواندن۵

اخبار کوتاه روزانه۳ هفته پیش

چگونه Claude Fable 5 بازدهی مهاجرت کد را از دو ماه به یک روز رساند؟

شرکت Anthropic مدل‌های Fable 5 و Mythos 5 را برای پیشبرد قابلیت‌های عامل‌محور در برنامه‌نویسی و پژوهش‌های علمی عرضه کرد. این سیستم اکنون از سازوکار «جایگزین» (fallback) برای…

۹ دقیقه خواندن

A11: روش ساختاریافته برای خودفریبی نکردن در استدلال

آموزش کاربردی۳ هفته پیش

سازوکار A11: جداسازی مشاهده از نتیجه برای مهار توهمات هوش مصنوعی

چارچوب جدید A11 با ایجاد لایه‌های استدلالی، مانع از آن می‌شود که مدل‌های هوش مصنوعی مشاهدات را با فرض‌ها اشتباه بگیرند. هدف این سیستم به‌جای رسیدن به حقیقت مطلق، کاهش خطاهای…

۴ دقیقه خواندن

۸ مدل هوش مصنوعی در ژوئن ۲۰۲۶: بنچمارک، سطوح و رقابت برای رتبه اول

تحلیل و بررسی تخصصی۳ هفته پیش

گزارش BenchLM: پیشتازی ۴ امتیازی Claude Opus 4.8 در برابر GPT-5.5

تحلیل فنی هشت مدل پیشرو در ژوئن ۲۰۲۶ نشان‌دهنده شکاف میان قدرت کدنویسی خام و استقلال عامل‌محور است. در حالی که Claude Opus 4.8 در بنچمارک‌های عینی پیشتازی می‌کند، GPT-5.5 همچنان…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مقیاس‌پذیری مدل‌های زبانی توهمات حقوقی را درمان نمی‌کند؟

خطاهای سیستم‌های هوش مصنوعی حقوقی، مانند استنادهای ساختگی، ریشه در نقص معماری و عدم تطابق بازیابی احتمالی با ساختار سلسله‌مراتبی قوانین دارند. چارچوب پیشنهادی جدید با رویکرد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانت‌های ریاضیاتی علیه توهمات و حذف داده‌های حیاتی در خلاصه‌های پزشکی ارائه می‌دهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

پژوهشگران بنچمارک OmniGameArena را برای اندازه‌گیری نحوه بهبود عامل‌های مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کرده‌اند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

پژوهشگران دریافتند که توکن‌های بصری در مدل‌های چندوجهی پیش از رسیدن به لایه‌های نهایی اشباع می‌شوند. چارچوب DPVR-LF با مسیریابی این توکن‌ها به یک شاخه جانبی، عملکرد مدل را با تنها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

محققان مجموعه‌داده‌ی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش می‌کند که سیستم‌های فعلی هوش مصنوعی در تشخیص ناهماهنگی‌های تاریخی ظریف و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

تحلیلی بر مدل‌های بنیادی ویدیو نشان می‌دهد که V-JEPA در درک قوانین فیزیک شهودی را به مدل‌های مبتنی بر انتشار و بازسازی پیشی می‌برد. این یافته‌ها تأیید می‌کند که هدف پیش‌آموزش…

۱ دقیقه خواندن