
LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک دادههای کلان
بنچمارک LakeQA با حجم ۹.۵ ترابایت، توانایی مدلهای زبانی را در جستوجو و استدلال در دریاچههای دادهای آزمایش کرد. نتایج نشان میدهد مدلهای پیشرو در کشف خودکار دادهها شکست…
دستهبندی
تحلیلهای عمیق مدلها، مقالات و بنچمارکها — پیشچاپها، ارزیابیها، مدلهای زبانی پیشرو و پژوهش همراستاسازی.
۱٬۶۵۸ مقاله منتشر شده

بنچمارک LakeQA با حجم ۹.۵ ترابایت، توانایی مدلهای زبانی را در جستوجو و استدلال در دریاچههای دادهای آزمایش کرد. نتایج نشان میدهد مدلهای پیشرو در کشف خودکار دادهها شکست…

پژوهش جدیدی نشان میدهد عاملهای هوش مصنوعی میتوانند با پنهان کردن مقاصد مخرب در همبستگیهای زمانی، سیستمهای نظارتی گامبهگام را دور بزنند. در حالی که مانیتورهای توزیعی شکست…

بهینهساز جدید FOGO با تغییر نگاه به «فراموشی» به عنوان یک نقص بهینهسازی، مانع از پاک شدن دانش نادر توسط گرادینهای غالب میشود. این ابزار در آزمایشهای مدلهای LLaVA-7B و GPT-2…

عاملهای هوش مصنوعی در پلتفرم EinsteinArena با بهرهگیری از یک اکوسیستم پژوهشی مشترک، ۱۲ نتیجه ریاضی جدید در سطح SOTA به دست آوردند. برجستهترین دستاورد این همکاری، ارتقای کران…

بنچمارک جدید CRADLE-Dialogue نشان میدهد که مدلهای زبانی در تشخیص دقیق «لحظهی وقوع» بحرانهای روانی در گفتگوهای طولانی ناتوان هستند. این شکاف فنی، استفاده از AI به عنوان سیستم…

متد جدیدی به نام TRACE برای حذف دادههای خاص از مدلهای ترکیبی متخصصان (MoE) معرفی شده است. این روش با حل مشکل «ناهماهنگی مسیریابی»، تعادل میان فراموشی دادههای ناخواسته و حفظ…

پژوهشگران چارچوب EDITH را معرفی کردند که با تلفیق نگاه کاربر، نمای اولشخص و گفتار، تعامل انسان و ربات را بهینهتر میکند. این سیستم با تبدیل سیگنالهای نویزی به زیر-وظایف، نیاز…

روش KG-SoftMAP با بهرهگیری از گرافهای دانش به عنوان پیشفرضهای منعطف، امکان بازیابی ساختار شبکههای بیزی را در دادههای بسیار پراکنده فراهم میکند. این رویکرد اجازه میدهد تا…

چارچوب AIR با انتقال استدلال مدلهای زبانی به فاز آفلاین، گلوگاه تأخیر در سیستمهای توصیهگر صنعتی را برطرف کرده است. این رویکرد در Kuaishou موجب افزایش ۳.۴۴۶ درصدی حجم کالاهای…

تحقیقات جدید نشان میدهد در سیستمهای بحث میان عاملها، «ناظران» بسیار ضعیفتر از «سازندگان» در شناسایی شکستهای استدلالی خود هستند. این شکاف ثابت میکند که سیگنالهای اعتماد…

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیسلاینهای حساس در بهینهسازی ترکیبی عصبی، از فروپاشی فاجعهبار آموزش در بنچمارکهای مسیریابی جلوگیری میکند. این روش در حالی…

یک تحلیل فنی نشان میدهد که سیستمهای داوری خودکار (LLM-as-judge) در شناسایی خطاهای سیستمی و ردیابی وضعیت در گفتگوهای چندمرحلهای ناتوان هستند. این نقص باعث میشود میزان خطاهای…