پرش به محتوای اصلی

موضوع

استدلال

Chain-of-thought, reasoning models (o-series, R-series), test-time compute

۶۱۵ مقاله منتشر شده

CFips: عبور از بن‌بست محاسباتی در استخراج الگوهای بازه‌ای

CFips: عبور از بن‌بست محاسباتی در استخراج الگوهای بازه‌ای

معرفی چارچوب CFips برای حل مشکل Time-out در تحلیل داده‌های بازه‌ای حجیم از طریق ادغام محدودیت‌های نحوی در فرآیند نمونه‌برداری. این روش امکان استخراج الگوهای نماینده را بدون از دست…

۱ دقیقه خواندن
چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

پژوهشگران چارچوب جدیدی برای «طراحی بازگشتی» در هوش مصنوعی معرفی کردند که طی آن مدل DGM توانست نمرات کدنویسی خود را در ۸۰ تکرار، از ۲۰٪ به ۵۰٪ برساند. این مطالعه با ارائه پروتکل…

۱ دقیقه خواندن
۸۶٪ دقت در تأیید پروتکل‌های درمانی سکته مغزی با ارکستراسیون مدل‌های زبانی

۸۶٪ دقت در تأیید پروتکل‌های درمانی سکته مغزی با ارکستراسیون مدل‌های زبانی

یک چارچوب جدید هوش مصنوعی می‌تواند رعایت دستورالعمل‌های پزشکی را تنها با تحلیل متون نامساختار تأیید کند. مطالعه‌ای در بیمارستان Alessandria موفق شد بدون نیاز به دستورالعمل‌های…

۱ دقیقه خواندن
گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

گزارش ArXiv: کاهش ۲۸ درصدی توکن‌های استنتاج از طریق استدلال بصری

پژوهشگران متد جدیدی به نام «استدلال بصری» را معرفی کرده‌اند که تحلیل‌های متنی داخلی را با نمایش‌های تصویری جایگزین می‌کند. این رویکرد بدون کاهش دقت، حجم توکن‌های مورد نیاز برای…

۱ دقیقه خواندن
چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

چرا «خودتوضیحی» در هوش مصنوعی هنوز در سطح مفاهیم باقی مانده است؟

یک بررسی جامع در arXiv نشان می‌دهد که مفهوم «خودتوضیحی» (SX) در سیستم‌های هوش مصنوعی، علیرغم اهمیت بنیادین، هنوز فاقد پیاده‌سازی عملی و معیارهای ارزیابی استاندارد است. این پژوهش…

۱ دقیقه خواندن
گزارش ArXiv: برتری داده‌های اختصاصی بر ساختارهای استدلالی در ارزش‌گذاری دارویی

گزارش ArXiv: برتری داده‌های اختصاصی بر ساختارهای استدلالی در ارزش‌گذاری دارویی

پژوهش‌های جدید نشان می‌دهد عامل‌های هوش مصنوعی در ارزش‌گذاری داروها، بیش از آنکه با محدودیت‌های استدلالی دست‌وپنجر باشند، با کمبود داده‌های باکیفیت مواجه‌اند. دسترسی به مجموعه…

۲ دقیقه خواندن
MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

MedSci Skills: شناسایی ۱۰۰٪ خطاهای پزشکی با جایگزینی LLM با گیت‌های قطعی

معماری جدید MedSci Skills با جایگزینی خود-ارزیابی مدل‌های زبانی با گیت‌های تأیید قطعی، توانست تمام خطاهای تزریق‌شده در متون بالینی را شناسایی کند. در حالی که مدل‌های زبانی معمولی…

۲ دقیقه خواندن
بهینه‌سازی پایش آنفلوانزا از طریق استنتاج گزینشی متغیرهای پنهان (BSLI)

بهینه‌سازی پایش آنفلوانزا از طریق استنتاج گزینشی متغیرهای پنهان (BSLI)

چارچوب BSLI پایش فاضلاب شهری را از یک جریان داده‌ی غیرفعال به یک سامانه‌ی تصمیم‌ساز فعال تبدیل می‌کند. این سیستم با تعیین زمان دقیق نیاز به داده‌های تکمیلی، توازن میان هزینه‌ی…

۲ دقیقه خواندن
TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

TheoremBench: افشای سوگیری مدل‌های زبانی در حل زیر-براهین ساده ریاضی

بنچمارک جدید TheoremBench نشان می‌دهد که مدل‌های زبانی با وجود موفقیت در مسائل مجزا، در مدیریت براهین پیچیده و وابسته به یکدیگر شکست می‌خورند. این مدل‌ها به جای استدلال ساختاری،…

۲ دقیقه خواندن
AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

AliyunConsoleAgent: دستیابی به عملکرد مدل‌های پیشرو با ۹۲٪ هزینه کمتر

یک چارچوب آموزشی جدید با بهره‌گیری از تقطیر دانش و بهینه‌سازی GRPO، مدلی با ۳۲ میلیارد پارامتر را به سطح مدل‌های تجاری پیشرو در اتوماسیون کنسول‌های ابری رسانده است. این سیستم ضمن…

۲ دقیقه خواندن
رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

رمزگشایی از «قرارداد شناختی» در SuperBrowser: عبور از بن‌بست پردازش DOM در وب

عامل جدید SuperBrowser با دستیابی به نرخ موفقیت ۸۹.۴۷ درصدی در بنچمارک Mind2Web Hard، استانداردهای ناوبری وب را جابه‌جا کرد. این سیستم به جای پردازش جامع داده‌های صفحه، از مکانیزم…

۲ دقیقه خواندن
چرا عامل‌های هوش مصنوعی در مدیریت هم‌زمان محیط‌های گرافیکی و متنی شکست می‌خورند؟

چرا عامل‌های هوش مصنوعی در مدیریت هم‌زمان محیط‌های گرافیکی و متنی شکست می‌خورند؟

بنچمارک جدید WeaveBench نشان می‌دهد که مدل‌های پیشرو در وظایف ترکیبی GUI و CLI تنها به نرخ موفقیت ۴۱.۲ درصدی رسیده‌اند. این نتایج فاش می‌کند که عامل‌ها در مدیریت گردش‌کارهای…

۱ دقیقه خواندن