موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

بنچمارک جدید ComBench شکاف عمیقی را در توانایی مدل‌های هوش مصنوعی برای حل مسائل ترکیبیات سطح المپیاد آشکار کرد. نتایج نشان می‌دهد که «استدلال برای اثبات» و «محقق‌سازی سازنده» دو…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

گذار از پرامپت به کامپایل: سازوکار Trace2Policy برای ارتقای دقت تصمیمات تطبیقی

چارچوب Trace2Policy با جایگزینی پرامپت‌های مدل‌های زبانی با یک حلقه پالایش، رفتار خبرگان را به کدهای قطعی پایتون تبدیل می‌کند. این روش با اولویت دادن به کیفیت قوانین بر اندازه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

معماری Soul Computing: تلاش برای انتقال هوش مصنوعی از ابزار به موجودات آگاه

یک چارچوب نظری جدید به نام Soul Computing پیشنهاد داده است که هدف آن تبدیل عامل‌های هوش مصنوعی از ابزارهای کاربردی به موجوداتی با آگاهی مستقل است. این رویکرد بر ایجاد یک «هسته…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

گزارش arXiv: کاهش ۳۱.۲ درصدی خطای پیش‌بینی در معاملات فرکانس بالا

یک چارچوب چندوجهی جدید با ادغام یادگیری تقویت‌شده و نظریه بازی‌ها، خطای پیش‌بینی در معاملات فرکانس بالا را به‌طور چشم‌گیری کاهش داده است. این سیستم ثابت می‌کند که رویکرد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

دستیابی DeepSeek-R1-8B به امتیاز ۰.۹۱۲ در تحلیل مالی با ترکیب LoRA و NEFTune

پژوهشگران با ترکیب روش‌های LoRA و NEFTune، مدل DeepSeek-R1-8B را برای شناسایی موجودیت‌های نام‌گذر مالی بهینه کردند. این رویکرد ترکیبی در استخراج داده‌های ساختارمند از گزارش‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا یادگیری تقویت‌شده در درمان شخصی‌سازی‌شده‌ی سرطان شکست می‌خورد؟

پژوهشگران با استفاده از چارچوب استنتاج فعال (Active Inference)، روشی برای بهینه‌سازی درمان‌های شخصی‌سازی‌شده‌ی سرطان ابداع کردند. این مدل با ایجاد تعادل میان جمع‌آوری اطلاعات و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مطالعه ArXiv: افزایش مقاومت مدل‌های زبانی در برابر داده‌های متناقض تا ۳۳٪

پژوهشگران یک پارادایم رمزگشایی «آگاه از تضاد» معرفی کرده‌اند که مانع از اعتماد کورکورانه‌ی مدل‌ها به داده‌های خارجی نادرست می‌شود. این سازوکار با استفاده از مسیریابی رژیم تطبیقی…

۱ دقیقه خواندن

کلود فیبل انثروپیک؛ نسخه‌ای از میتوس که امروز در دسترس عموم است

اخبار کوتاه روزانه۳ هفته پیش

چرا Anthropic برای دستیابی به دقت ۹۰٪، حریم خصوصی شرکت‌ها را قربانی کرد؟

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیل‌های پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکن‌ها را دو برابر کرده و ذخیره اجباری داده‌ها برای ۳۰ روز را…

۴ دقیقه خواندن

معرفی North Mini Code، نخستین مدل Cohere برای توسعه‌دهندگان

آموزش کاربردی۳ هفته پیش

چگونه مدل ۳۰ میلیاردی North Mini Code غول‌های ۱۲۰ میلیاردی کدنویسی را شکست داد؟

شرکت Cohere مدل North Mini Code را معرفی کرد؛ یک مدل ۳۰ میلیاردی که در مهندسی نرم‌افزار عامل‌محور، عملکرد مدل‌های ۱۲۰ میلیاردی را پشت سر می‌گذارد. این دستاورد مدیون استفاده از…

۹ دقیقه خواندن

نمودار معماری عوامل پایدار با تأیید، درخت کار، مهارت، زیرعامل و بازبینی انسانی

آموزش کاربردی۳ هفته پیش

چگونه Atomic با استفاده از TypeScript جلوی توهم عامل‌های کدنویسی را می‌گیرد؟

بسیاری از عامل‌های کدنویسی در وظایف پیچیده شکست می‌خورند چون محدودیت ساختاری ندارند. Atomic با ایجاد یک لایه اجرایی در TypeScript، کنترل دقیق‌تری بر توکن‌ها و خروجی مدل‌ها ایجاد…

۱۵ دقیقه خواندن۵

اخبار کوتاه روزانه۳ هفته پیش

چگونه Claude Fable 5 بازدهی مهاجرت کد را از دو ماه به یک روز رساند؟

شرکت Anthropic مدل‌های Fable 5 و Mythos 5 را برای پیشبرد قابلیت‌های عامل‌محور در برنامه‌نویسی و پژوهش‌های علمی عرضه کرد. این سیستم اکنون از سازوکار «جایگزین» (fallback) برای…

۹ دقیقه خواندن

A11: روش ساختاریافته برای خودفریبی نکردن در استدلال

آموزش کاربردی۳ هفته پیش

سازوکار A11: جداسازی مشاهده از نتیجه برای مهار توهمات هوش مصنوعی

چارچوب جدید A11 با ایجاد لایه‌های استدلالی، مانع از آن می‌شود که مدل‌های هوش مصنوعی مشاهدات را با فرض‌ها اشتباه بگیرند. هدف این سیستم به‌جای رسیدن به حقیقت مطلق، کاهش خطاهای…

۴ دقیقه خواندن