پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۰۷ مقاله منتشر شده

چرا افزودن لایه‌های بیشتر در مدل‌های عمیق دیگر جواب نمی‌دهد؟

جریان باقی‌مانده در برابر NAG: گذار به مدل‌های بهینه‌تر و عمیق‌تر

پژوهشگران با معرفی معماری NAG مانع از زوال سیگنال در مدل‌های ترنسفورمر می‌شوند. این رویکرد با جداسازی اندازه از جهت در جریان باقی‌مانده، امکان ایجاد مدل‌های بسیار عمیق و بهینه را…

۲ دقیقه خواندن
چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

پژوهشگران با معرفی معماری ترکیبی موازی (PHA)، مدل‌های حالت-فضا و مکانیسم توجه را در شاخه‌های مجزا ادغام کرده‌اند. این رویکرد دقت مدل‌های ترانسفورمر را حفظ کرده و هم‌زمان سرعت…

۱ دقیقه خواندن۲
چرا استفاده از ابزار بصری دقت ارزیابی کیفیت تصاویر را جهش داد؟

چرا استفاده از ابزار بصری دقت ارزیابی کیفیت تصاویر را جهش داد؟

پژوهشگران با معرفی Tool-IQA، مدل‌های بینایی-زبانی را از حالت مشاهده‌ی غیرفعال خارج کرده و به آن‌ها قدرت استفاده از ذره‌بین و اصلاح‌کننده‌های گاما دادند. این رویکرد عامل‌محور، دقت…

۲ دقیقه خواندن
چگونه Phys-JEPA محدودیت‌های فیزیکی را در مدل‌های جهان جای‌گذاری می‌کند؟

چگونه Phys-JEPA محدودیت‌های فیزیکی را در مدل‌های جهان جای‌گذاری می‌کند؟

معماران Phys-JEPA توانسته‌اند قوانین فیزیک را به‌جای خروجی نهایی، مستقیماً در فضای پنهان مدل‌های پیش‌بینی سری زمانی ادغام کنند. این رویکرد دقت پیش‌بینی در داده‌های اقلیمی و…

۲ دقیقه خواندن
چرا بهینه‌سازی ترجیحی جایگزین تنظیم دقیق در داده‌های پزشکی می‌شود؟

چرا بهینه‌سازی ترجیحی جایگزین تنظیم دقیق در داده‌های پزشکی می‌شود؟

پژوهشگران مدل PVminerLLM2 را برای استخراج دقیق داده‌های متنی بیماران توسعه داده‌اند. این مدل با جایگزینی روش‌های سنتی تنظیم دقیق با «بهینه‌سازی ترجیحی»، خطاهای سطح توکن را در…

۱ دقیقه خواندن
چرا مدل‌های استدلالی در طبقه‌بندی گمرکی شکست می‌خورند؟

چرا مدل‌های استدلالی در طبقه‌بندی گمرکی شکست می‌خورند؟

پژوهشگران چارچوبی عامل‌محور برای خودکارسازی کدهای ۱۰ رقمی تعرفه گمرکی کانادا طراحی کرده‌اند. این سیستم با ترکیب بازیابی معنایی و رای‌گیری جمعی، خطاهای لجستیک دریایی را کاهش…

۱ دقیقه خواندن
حل چالش پیش‌بینی Cold-Start با معماری RAID: گذار از وابستگی به تاریخچه به

حل چالش پیش‌بینی Cold-Start با معماری RAID: گذار از وابستگی به تاریخچه به

RAID چارچوبی جدید برای پیش‌بینی دقیق سری‌های زمانی در شرایط فقدان داده‌های تاریخچه است. این سیستم با جایگزینی یادگیری وابسته به تاریخچه با بازیابی متادیتای معنایی و یک ماژول…

۱ دقیقه خواندن
MA-SBI: حذف خطای شبیه‌سازها با تبدیل متون جانبی به اصلاح‌گرهای ریاضی

MA-SBI: حذف خطای شبیه‌سازها با تبدیل متون جانبی به اصلاح‌گرهای ریاضی

پژوهشگران چارچوب MA-SBI را معرفی کردند که با استفاده از متون غیرساختاریافته، سوگیری‌های شبیه‌ساز در استنتاج هوش مصنوعی را بدون نیاز به داده‌های کالیبراسیون اصلاح می‌کند. این روش…

۲ دقیقه خواندن
چرا چک‌کردن نوع برای تضمین صحت ترجمه‌های ریاضی کافی نیست؟

چرا چک‌کردن نوع برای تضمین صحت ترجمه‌های ریاضی کافی نیست؟

چارچوب جدید BPF با شناسایی ۸۹.۶ درصد از انحرافات معنایی، شکاف وفاداری در تبدیل ریاضیات زبان طبیعی به کد فرمال را می‌پوشاند. این متد به‌طور قابل‌توجهی دقیق‌تر از روش‌های رایج…

۲ دقیقه خواندن۱
کاهش خطای انتخاب ابزار در عامل‌های AI به ۲.۵ درصد با GIST-CMTF

کاهش خطای انتخاب ابزار در عامل‌های AI به ۲.۵ درصد با GIST-CMTF

چارچوب GIST-CMTF با معرفی لایه‌ی استنتاج وضعیت هدف، مانع از اجرای وظایف بر اساس درخواست‌های مبهم کاربران می‌شود. این سیستم با اعتبارسنجی هدف پیش از معرفی ابزارها، نرخ موفقیت در…

۱ دقیقه خواندن