پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۳۰ مقاله منتشر شده

کلود فیبل انثروپیک؛ نسخه‌ای از میتوس که امروز در دسترس عموم است

چرا Anthropic برای دستیابی به دقت ۹۰٪، حریم خصوصی شرکت‌ها را قربانی کرد؟

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیل‌های پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکن‌ها را دو برابر کرده و ذخیره اجباری داده‌ها برای ۳۰ روز را…

۴ دقیقه خواندن
معرفی North Mini Code، نخستین مدل Cohere برای توسعه‌دهندگان
آموزش کاربردی

چگونه مدل ۳۰ میلیاردی North Mini Code غول‌های ۱۲۰ میلیاردی کدنویسی را شکست داد؟

شرکت Cohere مدل North Mini Code را معرفی کرد؛ یک مدل ۳۰ میلیاردی که در مهندسی نرم‌افزار عامل‌محور، عملکرد مدل‌های ۱۲۰ میلیاردی را پشت سر می‌گذارد. این دستاورد مدیون استفاده از…

۹ دقیقه خواندن
نمودار معماری عوامل پایدار با تأیید، درخت کار، مهارت، زیرعامل و بازبینی انسانی
آموزش کاربردی

چگونه Atomic با استفاده از TypeScript جلوی توهم عامل‌های کدنویسی را می‌گیرد؟

بسیاری از عامل‌های کدنویسی در وظایف پیچیده شکست می‌خورند چون محدودیت ساختاری ندارند. Atomic با ایجاد یک لایه اجرایی در TypeScript، کنترل دقیق‌تری بر توکن‌ها و خروجی مدل‌ها ایجاد…

۱۵ دقیقه خواندن۵
A11: روش ساختاریافته برای خودفریبی نکردن در استدلال
آموزش کاربردی

سازوکار A11: جداسازی مشاهده از نتیجه برای مهار توهمات هوش مصنوعی

چارچوب جدید A11 با ایجاد لایه‌های استدلالی، مانع از آن می‌شود که مدل‌های هوش مصنوعی مشاهدات را با فرض‌ها اشتباه بگیرند. هدف این سیستم به‌جای رسیدن به حقیقت مطلق، کاهش خطاهای…

۴ دقیقه خواندن
چرا مقیاس‌پذیری مدل‌های زبانی توهمات حقوقی را درمان نمی‌کند؟

چرا مقیاس‌پذیری مدل‌های زبانی توهمات حقوقی را درمان نمی‌کند؟

خطاهای سیستم‌های هوش مصنوعی حقوقی، مانند استنادهای ساختگی، ریشه در نقص معماری و عدم تطابق بازیابی احتمالی با ساختار سلسله‌مراتبی قوانین دارند. چارچوب پیشنهادی جدید با رویکرد…

۲ دقیقه خواندن
مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

مطالعه CARE: کاهش ۵ برابری هشدارهای خطا در خلاصه‌سازی پزشکی با لایه ایمنی جدید

چارچوب CARE یک لایه ایمنی مستقل از مدل است که ضمانت‌های ریاضیاتی علیه توهمات و حذف داده‌های حیاتی در خلاصه‌های پزشکی ارائه می‌دهد. این سیستم با کاهش چشمگیر هشدارهای غیرضروری و…

۲ دقیقه خواندن
چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

پژوهشگران بنچمارک OmniGameArena را برای اندازه‌گیری نحوه بهبود عامل‌های مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کرده‌اند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

۱ دقیقه خواندن
کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

پژوهشگران دریافتند که توکن‌های بصری در مدل‌های چندوجهی پیش از رسیدن به لایه‌های نهایی اشباع می‌شوند. چارچوب DPVR-LF با مسیریابی این توکن‌ها به یک شاخه جانبی، عملکرد مدل را با تنها…

۲ دقیقه خواندن
چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

محققان مجموعه‌داده‌ی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش می‌کند که سیستم‌های فعلی هوش مصنوعی در تشخیص ناهماهنگی‌های تاریخی ظریف و…

۱ دقیقه خواندن
برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

تحلیلی بر مدل‌های بنیادی ویدیو نشان می‌دهد که V-JEPA در درک قوانین فیزیک شهودی را به مدل‌های مبتنی بر انتشار و بازسازی پیشی می‌برد. این یافته‌ها تأیید می‌کند که هدف پیش‌آموزش…

۱ دقیقه خواندن