موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

درون معماری GW-Eyes: گذار از ابزارهای کمکی به عامل‌های خودگردان در اخترشناسی

پژوهشگران چارچوب GW-Eyes را معرفی کردند؛ سیستمی عامل‌محور که با استفاده از مدل‌های زبانی بزرگ، پیوند میان امواج گرانشی و همتای‌های الکترومغناطیسی آن‌ها را خودکار می‌کند. این…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

چارچوب جدیدی به نام Metis با استفاده از یک حلقه فراشناختی تکاملی، توانسته است با نرخ موفقیت ۸۹.۲ درصد از سدهای امنیتی مدل‌های پیشرو عبور کند. این سیستم به‌طور ویژه مدل‌های GPT-5 و…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

مدل CoWorld-VLA با معرفی توکن‌های تخصصی برای داده‌های هندسی و پویا، استدلال سطح بالا را به عمل دقیق در رانندگی خودکار متصل می‌کند. این چارچوب در بنچمارک NAVSIM v1 دقت مسیر و ایمنی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل‌های کوچک در تحلیل داده‌های رابطه‌ای شکست می‌خورند؟

یک مطالعه در مه ۲۰۲۶ نشان می‌دهد که مدل‌های زبانی پیشرو همچنان برتری مطلق خود را در پاسخ‌گویی به پرسش‌های مجموعه‌داده‌ها حفظ کرده‌اند. مدل‌های کوچک و بهینه، به‌ویژه در تبدیل زبان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

AnomalyClaw: افزایش ۷.۹۳ واحدی AUROC در تشخیص ناهنجاری‌های بصری با رویکرد ردّیه

عامل AnomalyClaw با جایگزینی استنتاج تک‌مرحله‌ای با یک فرآیند ردّیه چندمرحله‌ای، دقت تشخیص ناهنجاری‌های بصری را به‌طور چشم‌گیری افزایش می‌دهد. این ابزار بدون نیاز به آموزش مجدد،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

اتوماسیون حدس‌های مدارات کوانتومی با استدلال نوروسمبولیک در چارچوب SCALAR

چارچوب جدید SCALAR با ترکیب مدل‌های زبانی و استدلال نمادین، شناسایی الگوهای پیچیده در مدارات کوانتومی را خودکار می‌کند. این سیستم که بر بستر CUDA-Q توسعه یافته، قادر است تا ۷۷…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل‌های کوچک در یادگیری آنلاین بر Qwen-3-14B و DeepSeek-V3 پیروز می‌شوند؟

پژوهشی جدید نشان می‌دهد توکن‌های بافت نهفته پیوسته به مدل‌های کوچک اجازه می‌دهند الگوریتم‌های یادگیری آنلاین را بهینه‌تر از مدل‌های زبانی بزرگ اجرا کنند. یک مدل با معماری GPT-2 با…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

DeepRefine: عبور از RAG ایستا به لایه‌ی دانش خود-ترمیم‌شونده

مدل DeepRefine با استفاده از یادگیری تقویت‌شده، نقص‌ها و افزونگی‌های پایگاه دانش در عامل‌های هوش مصنوعی را شناسایی و اصلاح می‌کند. این مدل با معرفی پاداش GBD، نیاز به داده‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: نرخ موفقیت عامل‌های کدنویس با متد Shepherd به ۵۴.۷٪ رسید

پلتفرم Shepherd با معرفی زیرساختی مبتنی بر برنامه‌نویسی تابعی، تعاملات عامل‌ها را به عنوان رویدادهای کنترل‌شده مدیریت می‌کند. این رویکرد سرعت بازتولید وضعیت‌ها را ۵ برابر بیشتر از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

بنچمارک جدید BenchCAD نشان می‌دهد مدل‌های پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست می‌خورند. این مطالعه شکاف عمیق میان استدلال فضایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا حذف کامل «سندهای مزاحم» حیاتی‌تر از کاهش حجم پنجره متنی است؟

حضور مقدار اندکی اطلاعات گمراه‌کننده در متون طولانی، باعث سقوط غیرخطی عملکرد مدل‌های زبانی می‌شود. این یافته نشان می‌دهد که دقت در بازیابی داده‌ها بسیار حیاتی‌تر از کاهش کلی حجم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن