
CFips: عبور از بنبست محاسباتی در استخراج الگوهای بازهای
معرفی چارچوب CFips برای حل مشکل Time-out در تحلیل دادههای بازهای حجیم از طریق ادغام محدودیتهای نحوی در فرآیند نمونهبرداری. این روش امکان استخراج الگوهای نماینده را بدون از دست…
موضوع
Chain-of-thought, reasoning models (o-series, R-series), test-time compute
۶۱۵ مقاله منتشر شده

معرفی چارچوب CFips برای حل مشکل Time-out در تحلیل دادههای بازهای حجیم از طریق ادغام محدودیتهای نحوی در فرآیند نمونهبرداری. این روش امکان استخراج الگوهای نماینده را بدون از دست…

پژوهشگران چارچوب جدیدی برای «طراحی بازگشتی» در هوش مصنوعی معرفی کردند که طی آن مدل DGM توانست نمرات کدنویسی خود را در ۸۰ تکرار، از ۲۰٪ به ۵۰٪ برساند. این مطالعه با ارائه پروتکل…

یک چارچوب جدید هوش مصنوعی میتواند رعایت دستورالعملهای پزشکی را تنها با تحلیل متون نامساختار تأیید کند. مطالعهای در بیمارستان Alessandria موفق شد بدون نیاز به دستورالعملهای…

پژوهشگران متد جدیدی به نام «استدلال بصری» را معرفی کردهاند که تحلیلهای متنی داخلی را با نمایشهای تصویری جایگزین میکند. این رویکرد بدون کاهش دقت، حجم توکنهای مورد نیاز برای…

یک بررسی جامع در arXiv نشان میدهد که مفهوم «خودتوضیحی» (SX) در سیستمهای هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیادهسازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

پژوهشهای جدید نشان میدهد عاملهای هوش مصنوعی در ارزشگذاری داروها، بیش از آنکه با محدودیتهای استدلالی دستوپنجر باشند، با کمبود دادههای باکیفیت مواجهاند. دسترسی به مجموعه…

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدلهای زبانی با گیتهای تأیید قطعی، توانست تمام خطاهای تزریقشده در متون بالینی را شناسایی کند. در حالی که مدلهای زبانی معمولی…

چارچوب BSLI پایش فاضلاب شهری را از یک جریان دادهی غیرفعال به یک سامانهی تصمیمساز فعال تبدیل میکند. این سیستم با تعیین زمان دقیق نیاز به دادههای تکمیلی، توازن میان هزینهی…

بنچمارک جدید TheoremBench نشان میدهد که مدلهای زبانی با وجود موفقیت در مسائل مجزا، در مدیریت براهین پیچیده و وابسته به یکدیگر شکست میخورند. این مدلها به جای استدلال ساختاری،…

یک چارچوب آموزشی جدید با بهرهگیری از تقطیر دانش و بهینهسازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدلهای تجاری پیشرو در اتوماسیون کنسولهای ابری رسانده است. این سیستم ضمن…

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابهجا کرد. این سیستم به جای پردازش جامع دادههای صفحه، از مکانیزم…

بنچمارک جدید WeaveBench نشان میدهد که مدلهای پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیدهاند. این نتایج فاش میکند که عاملها در مدیریت گردشکارهای…