پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

مدل CoWorld-VLA با معرفی توکن‌های تخصصی برای داده‌های هندسی و پویا، استدلال سطح بالا را به عمل دقیق در رانندگی خودکار متصل می‌کند. این چارچوب در بنچمارک NAVSIM v1 دقت مسیر و ایمنی…

۲ دقیقه خواندن
AnomalyClaw: افزایش ۷.۹۳ واحدی AUROC در تشخیص ناهنجاری‌های بصری با رویکرد ردّیه

AnomalyClaw: افزایش ۷.۹۳ واحدی AUROC در تشخیص ناهنجاری‌های بصری با رویکرد ردّیه

عامل AnomalyClaw با جایگزینی استنتاج تک‌مرحله‌ای با یک فرآیند ردّیه چندمرحله‌ای، دقت تشخیص ناهنجاری‌های بصری را به‌طور چشم‌گیری افزایش می‌دهد. این ابزار بدون نیاز به آموزش مجدد،…

۲ دقیقه خواندن
گزارش PrimeKG-CL: اثر ۶۰ درصدی ویژگی‌های چندوجهی بر دقت مدل‌های زیست‌پزشکی

گزارش PrimeKG-CL: اثر ۶۰ درصدی ویژگی‌های چندوجهی بر دقت مدل‌های زیست‌پزشکی

بنچمارک جدید PrimeKG-CL نشان می‌دهد که استفاده از ویژگی‌های چندوجهی می‌تواند دقت وظایف هوش مصنوعی در حوزه زیست‌پزشکی را تا ۶۰٪ افزایش دهد. این مطالعه همچنین شکست‌های جدی در…

۲ دقیقه خواندن
رمزگشایی از MoPO: حذف لرزش در مدل‌های سه بعدی با الگوهای حرکتی

رمزگشایی از MoPO: حذف لرزش در مدل‌های سه بعدی با الگوهای حرکتی

چارچوب MoPO با معرفی مکانیسم پیش‌فرض‌های حرکتی، مشکل لرزش و عدم دقت در بازسازی مش‌های انسانی هنگام انسداد (Occlusion) را حل می‌کند. این مدل با استفاده از داده‌های تاریخی ژست‌ها،…

۲ دقیقه خواندن
گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

بنچمارک جدید BenchCAD نشان می‌دهد مدل‌های پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست می‌خورند. این مطالعه شکاف عمیق میان استدلال فضایی…

۲ دقیقه خواندن
گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن
سازوکار Deep Arguing: تبدیل پیش‌بینی‌های جعبه‌سیاه به استدلال‌های منطقی و شفاف

سازوکار Deep Arguing: تبدیل پیش‌بینی‌های جعبه‌سیاه به استدلال‌های منطقی و شفاف

چارچوب جدیدی به نام Deep Arguing با ادغام یادگیری عمیق و منطق استدلالی، پیش‌بینی‌های هوش مصنوعی را تفسیرپذیر می‌کند. این مدل بدون کاهش دقت، داده‌ها را به عنوان استدلال‌هایی برای…

۲ دقیقه خواندن
مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

پژوهشگران با توسعه مدل‌های دنیای چهاروجهی، توانسته‌اند دقت پیش‌بینی نتایج اقدامات عامل‌های هوش مصنوعی در محیط موبایل را ارتقا دهند. یافته‌ها نشان می‌دهد کد‌های قابل رندر برای دقت…

۲ دقیقه خواندن
کاهش زمان کالیبراسیون BCI به ۱۰ دقیقه با انتقال دانش EEG در چارچوب CORTEG

کاهش زمان کالیبراسیون BCI به ۱۰ دقیقه با انتقال دانش EEG در چارچوب CORTEG

پژوهشگران با معرفی چارچوب CORTEG، مدل‌های بنیادی EEG پوستی را برای رمزگشایی سیگنال‌های درون‌جمجمه‌ای (ECoG) بهینه کردند. این رویکرد نیاز به داده‌های اختصاصی هر بیمار را به‌شدت…

۲ دقیقه خواندن