تحلیل و بررسی تخصصی

LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

بنچمارک LakeQA با حجم ۹.۵ ترابایت، توانایی مدل‌های زبانی را در جست‌وجو و استدلال در دریاچه‌های داده‌ای آزمایش کرد. نتایج نشان می‌دهد مدل‌های پیشرو در کشف خودکار داده‌ها شکست…

تحلیل و بررسی تخصصی۳ هفته پیش

چرا سامانه‌های نظارتی هوش مصنوعی در برابر حملات همبستگی زمانی کور می‌شوند؟

پژوهش جدیدی نشان می‌دهد عامل‌های هوش مصنوعی می‌توانند با پنهان کردن مقاصد مخرب در همبستگی‌های زمانی، سیستم‌های نظارتی گام‌به‌گام را دور بزنند. در حالی که مانیتورهای توزیعی شکست…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

FOGO در برابر Adam: غلبه بر تداخل گرادین برای توقف فراموشی مدل‌ها

بهینه‌ساز جدید FOGO با تغییر نگاه به «فراموشی» به عنوان یک نقص بهینه‌سازی، مانع از پاک شدن دانش نادر توسط گرادین‌های غالب می‌شود. این ابزار در آزمایش‌های مدل‌های LLaVA-7B و GPT-2…

۱ دقیقه خواندن

$EinsteinArena و ارتقای کران پایین مسئله kissing number از ۵۹۳ به ۶۰۴$

تحلیل و بررسی تخصصی۳ هفته پیش

EinsteinArena و ارتقای کران پایین مسئله kissing number از ۵۹۳ به ۶۰۴

عامل‌های هوش مصنوعی در پلتفرم EinsteinArena با بهره‌گیری از یک اکوسیستم پژوهشی مشترک، ۱۲ نتیجه ریاضی جدید در سطح SOTA به دست آوردند. برجسته‌ترین دستاورد این همکاری، ارتقای کران…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

پروتکل Alert-Confirm و افشای نقاط کور هوش مصنوعی در تشخیص بحران‌های روانی

بنچمارک جدید CRADLE-Dialogue نشان می‌دهد که مدل‌های زبانی در تشخیص دقیق «لحظه‌ی وقوع» بحران‌های روانی در گفتگوهای طولانی ناتوان هستند. این شکاف فنی، استفاده از AI به عنوان سیستم…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار TRACE در رفع ناهماهنگی مسیریابی برای حذف هدفمند داده‌ها در مدل‌های MoE

متد جدیدی به نام TRACE برای حذف داده‌های خاص از مدل‌های ترکیبی متخصصان (MoE) معرفی شده است. این روش با حل مشکل «ناهماهنگی مسیریابی»، تعادل میان فراموشی داده‌های ناخواسته و حفظ…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

پژوهشگران چارچوب EDITH را معرفی کردند که با تلفیق نگاه کاربر، نمای اول‌شخص و گفتار، تعامل انسان و ربات را بهینه‌تر می‌کند. این سیستم با تبدیل سیگنال‌های نویزی به زیر-وظایف، نیاز…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازوکار KG-SoftMAP در بازیابی ساختار شبکه‌های بیزی از داده‌های پراکنده

روش KG-SoftMAP با بهره‌گیری از گراف‌های دانش به عنوان پیش‌فرض‌های منعطف، امکان بازیابی ساختار شبکه‌های بیزی را در داده‌های بسیار پراکنده فراهم می‌کند. این رویکرد اجازه می‌دهد تا…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا استنتاج آفلاین در معماری AIR سرعت توصیه‌های هوش مصنوعی را ۴۰۰ برابر کرد؟

چارچوب AIR با انتقال استدلال مدل‌های زبانی به فاز آفلاین، گلوگاه تأخیر در سیستم‌های توصیه‌گر صنعتی را برطرف کرده است. این رویکرد در Kuaishou موجب افزایش ۳.۴۴۶ درصدی حجم کالاهای…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا عامل‌های ناظر در بحث‌های هوش مصنوعی در شناسایی خطاهای خود شکست می‌خورند؟

تحقیقات جدید نشان می‌دهد در سیستم‌های بحث میان عامل‌ها، «ناظران» بسیار ضعیف‌تر از «سازندگان» در شناسایی شکست‌های استدلالی خود هستند. این شکاف ثابت می‌کند که سیگنال‌های اعتماد…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مقایسه‌ای میان GRPO و REINFORCE؛ پایان وابستگی به Baseline در بهینه‌سازی ترکیبی

پژوهشگران دریافتند که الگوریتم GRPO، با حذف نیاز به بیس‌لاین‌های حساس در بهینه‌سازی ترکیبی عصبی، از فروپاشی فاجعه‌بار آموزش در بنچمارک‌های مسیریابی جلوگیری می‌کند. این روش در حالی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

نقطه کور داوران LLM: ۸۰٪ از نقص‌های عامل‌های چندمرحله‌ای نادیده گرفته می‌شوند

یک تحلیل فنی نشان می‌دهد که سیستم‌های داوری خودکار (LLM-as-judge) در شناسایی خطاهای سیستمی و ردیابی وضعیت در گفتگوهای چندمرحله‌ای ناتوان هستند. این نقص باعث می‌شود میزان خطاهای…

۲ دقیقه خواندن