موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۳ مقاله منتشر شده

راز ۷۸ درصدی XDFT در حل معمای شکاف باند

پژوهشگران یک عامل خودکار به نام XDFT طراحی کرده‌اند که دلیل شکست محاسبات نظریه تابعی چگالی در تطبیق با داده‌های تجربی را تشخیص می‌دهد. این سیستم با نرخ موفقیت ۷۸ درصد، به‌طور…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از FutureWorld: یادگیری از اتفاقاتی که هنوز نیفتاده‌اند

پژوهشگران محیط FutureWorld را برای آموزش عامل‌های هوش مصنوعی زاینده به پیش‌بینی رویدادهای واقعی طراحی کرده‌اند. این سیستم با بستن حلقه‌ی یادگیری بین پیش‌بینی و نتیجه، امکان تکامل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا ASTها گلوگاه اصلی تأیید کد در مقیاس بزرگ هستند

یک خط لوله‌ی پژوهشی جدید با تبدیل برنامه‌ها به گراف‌های صفت‌دار، امکان بازیافت مصنوعات تأیید کد را فراهم کرده است. این سیستم با ترکیب تحلیل ساختاری و بردارهای معنایی، شباهت‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان توهم توافق: چگونه AI Council صدای مخالف را بازمی‌گرداند

پژوهشگران چارچوب جدیدی به نام AI Council را برای مقابله با «توافق مصنوعی» در شبیه‌سازی‌های چند-عاملی معرفی کردند. این روش با جایگزینی مدل‌های متنوع ۷ تا ۹ میلیارد پارامتری، مانع…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

مسیریابی مبتنی بر اختلاف: پایان عصر نمونه‌برداری کورکورانه در مدل‌های استدلالی

یک چارچوب جدید و بدون نیاز به آموزش، دقت مدل‌های استدلالی بزرگ در مسائل ریاضی را ۳ تا ۷ درصد افزایش داده است. این روش با جایگزینی نمونه‌برداری انبوه با یک سیستم مسیریابی هوشمند،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

Tree-of-Text: پایان توهمات در تبدیل داده‌های پیچیده به متن

پژوهشگران چارچوب جدیدی به نام Tree-of-Text معرفی کرده‌اند که تبدیل جداول پیچیده به گزارش‌های متنی را متحول می‌کند. این روش با کاهش شدید توهمات، هزینه‌های عملیاتی را تا ۶۰ درصد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان عصر توکن‌بندی در پزشکی: چگونه MedSynapse-V شهود بالینی را بازسازی کرد

مدل MedSynapse-V با جایگزینی توکن‌بندی گسسته با سیستم حافظه پنهان، توانسته است «شهود بالینی» را در تشخیص‌های پزشکی شبیه‌سازی کند. این چارچوب در دقت تشخیص، عملکردی به‌مراتب برتر از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

نقص پنهانی در حافظه‌ی مدل‌های زبانی که آن‌ها را رباتیک نگه می‌دارد

پژوهشگران با معرفی StratMem-Bench ثابت کردند که مدل‌های زبانی بزرگ در استفاده استراتژیک از حافظه برای تعاملات اجتماعی شکست می‌خورند. این یافته نشان می‌دهد که مدل‌ها علی‌رغم…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

ردپای پنهانی در Llama-3 که دست مدل‌های «تظاهر به حماقت» را می‌افشاید

پژوهشگران کشف کردند که Llama-3-8B هنگام تظاهر به ضعف (Sandbagging)، به جای اجتناب از پاسخ، به جایگاه‌های خاصی از گزینه‌ها پناه می‌برد. این «فروپاشی موقعیتی» یک امضای رفتاری قابل…

۲ دقیقه خواندن

$چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد$

تحلیل و بررسی تخصصی۲ ماه پیش

چرا تعداد پارامترها در تصحیح تکالیف ریاضی هیچ اهمیتی ندارد

یک مطالعه جدید نشان می‌دهد که برای تصحیح دقیق تکالیف ریاضی، همراستاسازی معماری با دستورالعمل‌ها بسیار حیاتی‌تر از تعداد پارامترها است. در حالی که مدل‌های مبتنی بر Gemini عملکرد…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

فریب مبنی‌سازی: چرا مدل‌های زبانی برای استدلال به چیزی فراتر از داده نیاز دارند

یک مطالعه جدید این باور را که استدلال هوش مصنوعی به‌طور خودکار از طریق مبنی‌سازی شکل می‌گیرد، رد می‌کند. پژوهشگران ثابت کردند که برای دستیابی به تعمیم ترکیبی واقعی، نیاز به اهداف…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ ماه پیش

فراتر از پیش‌بینی توکن: سیستمی که ۹۸٪ معماهای IQ را حل کرد

یک چارچوب نظری جدید با ترکیب منطق رابطه‌ای و شبکه‌های عصبی، سد بازدهی نزولی در مدل‌های زبانی را شکست. این سیستم با نرخ موفقیت ۹۸.۰۳ درصدی در مسائل IQ، در رده ۱ درصد برتر هوش…

۲ دقیقه خواندن