
ComBench: سقف ۶۵.۴ درصدی مدلهای پیشرو در حل مسائل ترکیبیات المپیادی
بنچمارک جدید ComBench شکاف عمیقی را در توانایی مدلهای هوش مصنوعی برای حل مسائل ترکیبیات سطح المپیاد آشکار کرد. نتایج نشان میدهد که «استدلال برای اثبات» و «محققسازی سازنده» دو…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۳ مقاله منتشر شده

بنچمارک جدید ComBench شکاف عمیقی را در توانایی مدلهای هوش مصنوعی برای حل مسائل ترکیبیات سطح المپیاد آشکار کرد. نتایج نشان میدهد که «استدلال برای اثبات» و «محققسازی سازنده» دو…

چارچوب Trace2Policy با جایگزینی پرامپتهای مدلهای زبانی با یک حلقه پالایش، رفتار خبرگان را به کدهای قطعی پایتون تبدیل میکند. این روش با اولویت دادن به کیفیت قوانین بر اندازه…

یک چارچوب نظری جدید به نام Soul Computing پیشنهاد داده است که هدف آن تبدیل عاملهای هوش مصنوعی از ابزارهای کاربردی به موجوداتی با آگاهی مستقل است. این رویکرد بر ایجاد یک «هسته…

یک چارچوب چندوجهی جدید با ادغام یادگیری تقویتشده و نظریه بازیها، خطای پیشبینی در معاملات فرکانس بالا را بهطور چشمگیری کاهش داده است. این سیستم ثابت میکند که رویکرد…

پژوهشگران با ترکیب روشهای LoRA و NEFTune، مدل DeepSeek-R1-8B را برای شناسایی موجودیتهای نامگذر مالی بهینه کردند. این رویکرد ترکیبی در استخراج دادههای ساختارمند از گزارشهای…

پژوهشگران با استفاده از چارچوب استنتاج فعال (Active Inference)، روشی برای بهینهسازی درمانهای شخصیسازیشدهی سرطان ابداع کردند. این مدل با ایجاد تعادل میان جمعآوری اطلاعات و…

پژوهشگران یک پارادایم رمزگشایی «آگاه از تضاد» معرفی کردهاند که مانع از اعتماد کورکورانهی مدلها به دادههای خارجی نادرست میشود. این سازوکار با استفاده از مسیریابی رژیم تطبیقی…

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیلهای پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکنها را دو برابر کرده و ذخیره اجباری دادهها برای ۳۰ روز را…

شرکت Cohere مدل North Mini Code را معرفی کرد؛ یک مدل ۳۰ میلیاردی که در مهندسی نرمافزار عاملمحور، عملکرد مدلهای ۱۲۰ میلیاردی را پشت سر میگذارد. این دستاورد مدیون استفاده از…

بسیاری از عاملهای کدنویسی در وظایف پیچیده شکست میخورند چون محدودیت ساختاری ندارند. Atomic با ایجاد یک لایه اجرایی در TypeScript، کنترل دقیقتری بر توکنها و خروجی مدلها ایجاد…

شرکت Anthropic مدلهای Fable 5 و Mythos 5 را برای پیشبرد قابلیتهای عاملمحور در برنامهنویسی و پژوهشهای علمی عرضه کرد. این سیستم اکنون از سازوکار «جایگزین» (fallback) برای…

چارچوب جدید A11 با ایجاد لایههای استدلالی، مانع از آن میشود که مدلهای هوش مصنوعی مشاهدات را با فرضها اشتباه بگیرند. هدف این سیستم بهجای رسیدن به حقیقت مطلق، کاهش خطاهای…