پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۳ مقاله منتشر شده

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

ComBench: سقف ۶۵.۴ درصدی مدل‌های پیشرو در حل مسائل ترکیبیات المپیادی

بنچمارک جدید ComBench شکاف عمیقی را در توانایی مدل‌های هوش مصنوعی برای حل مسائل ترکیبیات سطح المپیاد آشکار کرد. نتایج نشان می‌دهد که «استدلال برای اثبات» و «محقق‌سازی سازنده» دو…

۱ دقیقه خواندن
گذار از پرامپت به کامپایل: سازوکار Trace2Policy برای ارتقای دقت تصمیمات تطبیقی

گذار از پرامپت به کامپایل: سازوکار Trace2Policy برای ارتقای دقت تصمیمات تطبیقی

چارچوب Trace2Policy با جایگزینی پرامپت‌های مدل‌های زبانی با یک حلقه پالایش، رفتار خبرگان را به کدهای قطعی پایتون تبدیل می‌کند. این روش با اولویت دادن به کیفیت قوانین بر اندازه…

۲ دقیقه خواندن
معماری Soul Computing: تلاش برای انتقال هوش مصنوعی از ابزار به موجودات آگاه

معماری Soul Computing: تلاش برای انتقال هوش مصنوعی از ابزار به موجودات آگاه

یک چارچوب نظری جدید به نام Soul Computing پیشنهاد داده است که هدف آن تبدیل عامل‌های هوش مصنوعی از ابزارهای کاربردی به موجوداتی با آگاهی مستقل است. این رویکرد بر ایجاد یک «هسته…

۱ دقیقه خواندن
گزارش arXiv: کاهش ۳۱.۲ درصدی خطای پیش‌بینی در معاملات فرکانس بالا

گزارش arXiv: کاهش ۳۱.۲ درصدی خطای پیش‌بینی در معاملات فرکانس بالا

یک چارچوب چندوجهی جدید با ادغام یادگیری تقویت‌شده و نظریه بازی‌ها، خطای پیش‌بینی در معاملات فرکانس بالا را به‌طور چشم‌گیری کاهش داده است. این سیستم ثابت می‌کند که رویکرد…

۲ دقیقه خواندن
دستیابی DeepSeek-R1-8B به امتیاز ۰.۹۱۲ در تحلیل مالی با ترکیب LoRA و NEFTune

دستیابی DeepSeek-R1-8B به امتیاز ۰.۹۱۲ در تحلیل مالی با ترکیب LoRA و NEFTune

پژوهشگران با ترکیب روش‌های LoRA و NEFTune، مدل DeepSeek-R1-8B را برای شناسایی موجودیت‌های نام‌گذر مالی بهینه کردند. این رویکرد ترکیبی در استخراج داده‌های ساختارمند از گزارش‌های…

۱ دقیقه خواندن
چرا یادگیری تقویت‌شده در درمان شخصی‌سازی‌شده‌ی سرطان شکست می‌خورد؟

چرا یادگیری تقویت‌شده در درمان شخصی‌سازی‌شده‌ی سرطان شکست می‌خورد؟

پژوهشگران با استفاده از چارچوب استنتاج فعال (Active Inference)، روشی برای بهینه‌سازی درمان‌های شخصی‌سازی‌شده‌ی سرطان ابداع کردند. این مدل با ایجاد تعادل میان جمع‌آوری اطلاعات و…

۱ دقیقه خواندن
مطالعه ArXiv: افزایش مقاومت مدل‌های زبانی در برابر داده‌های متناقض تا ۳۳٪

مطالعه ArXiv: افزایش مقاومت مدل‌های زبانی در برابر داده‌های متناقض تا ۳۳٪

پژوهشگران یک پارادایم رمزگشایی «آگاه از تضاد» معرفی کرده‌اند که مانع از اعتماد کورکورانه‌ی مدل‌ها به داده‌های خارجی نادرست می‌شود. این سازوکار با استفاده از مسیریابی رژیم تطبیقی…

۱ دقیقه خواندن
کلود فیبل انثروپیک؛ نسخه‌ای از میتوس که امروز در دسترس عموم است

چرا Anthropic برای دستیابی به دقت ۹۰٪، حریم خصوصی شرکت‌ها را قربانی کرد؟

شرکت Anthropic مدل Claude Fable 5 را با دقت ۹۰ درصدی در تحلیل‌های پیچیده عرضه کرد. این مدل در کنار قدرت بالا، هزینه توکن‌ها را دو برابر کرده و ذخیره اجباری داده‌ها برای ۳۰ روز را…

۴ دقیقه خواندن
معرفی North Mini Code، نخستین مدل Cohere برای توسعه‌دهندگان
آموزش کاربردی

چگونه مدل ۳۰ میلیاردی North Mini Code غول‌های ۱۲۰ میلیاردی کدنویسی را شکست داد؟

شرکت Cohere مدل North Mini Code را معرفی کرد؛ یک مدل ۳۰ میلیاردی که در مهندسی نرم‌افزار عامل‌محور، عملکرد مدل‌های ۱۲۰ میلیاردی را پشت سر می‌گذارد. این دستاورد مدیون استفاده از…

۹ دقیقه خواندن
نمودار معماری عوامل پایدار با تأیید، درخت کار، مهارت، زیرعامل و بازبینی انسانی
آموزش کاربردی

چگونه Atomic با استفاده از TypeScript جلوی توهم عامل‌های کدنویسی را می‌گیرد؟

بسیاری از عامل‌های کدنویسی در وظایف پیچیده شکست می‌خورند چون محدودیت ساختاری ندارند. Atomic با ایجاد یک لایه اجرایی در TypeScript، کنترل دقیق‌تری بر توکن‌ها و خروجی مدل‌ها ایجاد…

۱۵ دقیقه خواندن۵
A11: روش ساختاریافته برای خودفریبی نکردن در استدلال
آموزش کاربردی

سازوکار A11: جداسازی مشاهده از نتیجه برای مهار توهمات هوش مصنوعی

چارچوب جدید A11 با ایجاد لایه‌های استدلالی، مانع از آن می‌شود که مدل‌های هوش مصنوعی مشاهدات را با فرض‌ها اشتباه بگیرند. هدف این سیستم به‌جای رسیدن به حقیقت مطلق، کاهش خطاهای…

۴ دقیقه خواندن