پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

درون معماری GW-Eyes: گذار از ابزارهای کمکی به عامل‌های خودگردان در اخترشناسی

درون معماری GW-Eyes: گذار از ابزارهای کمکی به عامل‌های خودگردان در اخترشناسی

پژوهشگران چارچوب GW-Eyes را معرفی کردند؛ سیستمی عامل‌محور که با استفاده از مدل‌های زبانی بزرگ، پیوند میان امواج گرانشی و همتای‌های الکترومغناطیسی آن‌ها را خودکار می‌کند. این…

۲ دقیقه خواندن
سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

چارچوب جدیدی به نام Metis با استفاده از یک حلقه فراشناختی تکاملی، توانسته است با نرخ موفقیت ۸۹.۲ درصد از سدهای امنیتی مدل‌های پیشرو عبور کند. این سیستم به‌طور ویژه مدل‌های GPT-5 و…

۲ دقیقه خواندن
چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

مدل CoWorld-VLA با معرفی توکن‌های تخصصی برای داده‌های هندسی و پویا، استدلال سطح بالا را به عمل دقیق در رانندگی خودکار متصل می‌کند. این چارچوب در بنچمارک NAVSIM v1 دقت مسیر و ایمنی…

۲ دقیقه خواندن
چرا مدل‌های کوچک در تحلیل داده‌های رابطه‌ای شکست می‌خورند؟

چرا مدل‌های کوچک در تحلیل داده‌های رابطه‌ای شکست می‌خورند؟

یک مطالعه در مه ۲۰۲۶ نشان می‌دهد که مدل‌های زبانی پیشرو همچنان برتری مطلق خود را در پاسخ‌گویی به پرسش‌های مجموعه‌داده‌ها حفظ کرده‌اند. مدل‌های کوچک و بهینه، به‌ویژه در تبدیل زبان…

۲ دقیقه خواندن
AnomalyClaw: افزایش ۷.۹۳ واحدی AUROC در تشخیص ناهنجاری‌های بصری با رویکرد ردّیه

AnomalyClaw: افزایش ۷.۹۳ واحدی AUROC در تشخیص ناهنجاری‌های بصری با رویکرد ردّیه

عامل AnomalyClaw با جایگزینی استنتاج تک‌مرحله‌ای با یک فرآیند ردّیه چندمرحله‌ای، دقت تشخیص ناهنجاری‌های بصری را به‌طور چشم‌گیری افزایش می‌دهد. این ابزار بدون نیاز به آموزش مجدد،…

۲ دقیقه خواندن
اتوماسیون حدس‌های مدارات کوانتومی با استدلال نوروسمبولیک در چارچوب SCALAR

اتوماسیون حدس‌های مدارات کوانتومی با استدلال نوروسمبولیک در چارچوب SCALAR

چارچوب جدید SCALAR با ترکیب مدل‌های زبانی و استدلال نمادین، شناسایی الگوهای پیچیده در مدارات کوانتومی را خودکار می‌کند. این سیستم که بر بستر CUDA-Q توسعه یافته، قادر است تا ۷۷…

۲ دقیقه خواندن
چرا مدل‌های کوچک در یادگیری آنلاین بر Qwen-3-14B و DeepSeek-V3 پیروز می‌شوند؟

چرا مدل‌های کوچک در یادگیری آنلاین بر Qwen-3-14B و DeepSeek-V3 پیروز می‌شوند؟

پژوهشی جدید نشان می‌دهد توکن‌های بافت نهفته پیوسته به مدل‌های کوچک اجازه می‌دهند الگوریتم‌های یادگیری آنلاین را بهینه‌تر از مدل‌های زبانی بزرگ اجرا کنند. یک مدل با معماری GPT-2 با…

۲ دقیقه خواندن
گزارش arXiv: نرخ موفقیت عامل‌های کدنویس با متد Shepherd به ۵۴.۷٪ رسید

گزارش arXiv: نرخ موفقیت عامل‌های کدنویس با متد Shepherd به ۵۴.۷٪ رسید

پلتفرم Shepherd با معرفی زیرساختی مبتنی بر برنامه‌نویسی تابعی، تعاملات عامل‌ها را به عنوان رویدادهای کنترل‌شده مدیریت می‌کند. این رویکرد سرعت بازتولید وضعیت‌ها را ۵ برابر بیشتر از…

۲ دقیقه خواندن
گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

بنچمارک جدید BenchCAD نشان می‌دهد مدل‌های پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست می‌خورند. این مطالعه شکاف عمیق میان استدلال فضایی…

۲ دقیقه خواندن
چرا حذف کامل «سندهای مزاحم» حیاتی‌تر از کاهش حجم پنجره متنی است؟

چرا حذف کامل «سندهای مزاحم» حیاتی‌تر از کاهش حجم پنجره متنی است؟

حضور مقدار اندکی اطلاعات گمراه‌کننده در متون طولانی، باعث سقوط غیرخطی عملکرد مدل‌های زبانی می‌شود. این یافته نشان می‌دهد که دقت در بازیابی داده‌ها بسیار حیاتی‌تر از کاهش کلی حجم…

۲ دقیقه خواندن
گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن