موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

مدل CoWorld-VLA با معرفی توکن‌های تخصصی برای داده‌های هندسی و پویا، استدلال سطح بالا را به عمل دقیق در رانندگی خودکار متصل می‌کند. این چارچوب در بنچمارک NAVSIM v1 دقت مسیر و ایمنی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

AnomalyClaw: افزایش ۷.۹۳ واحدی AUROC در تشخیص ناهنجاری‌های بصری با رویکرد ردّیه

عامل AnomalyClaw با جایگزینی استنتاج تک‌مرحله‌ای با یک فرآیند ردّیه چندمرحله‌ای، دقت تشخیص ناهنجاری‌های بصری را به‌طور چشم‌گیری افزایش می‌دهد. این ابزار بدون نیاز به آموزش مجدد،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

عبور از تضاد تخصص محلی و هوش عمومی در مدل ۱۲۳ میلیارد پارامتری Phoenix-VL 1.5

تیم Phoenix و Mistral AI مدل Phoenix-VL 1.5 Medium را معرفی کردند؛ یک مدل چندوجهی با ۱۲۳ میلیارد پارامتر که در عین حفظ توانمندی‌های جهانی در STEM، در حقوق و فرهنگ سنگاپور به سطح…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش PrimeKG-CL: اثر ۶۰ درصدی ویژگی‌های چندوجهی بر دقت مدل‌های زیست‌پزشکی

بنچمارک جدید PrimeKG-CL نشان می‌دهد که استفاده از ویژگی‌های چندوجهی می‌تواند دقت وظایف هوش مصنوعی در حوزه زیست‌پزشکی را تا ۶۰٪ افزایش دهد. این مطالعه همچنین شکست‌های جدی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از MoPO: حذف لرزش در مدل‌های سه بعدی با الگوهای حرکتی

چارچوب MoPO با معرفی مکانیسم پیش‌فرض‌های حرکتی، مشکل لرزش و عدم دقت در بازسازی مش‌های انسانی هنگام انسداد (Occlusion) را حل می‌کند. این مدل با استفاده از داده‌های تاریخی ژست‌ها،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا مدل ۰.۷۷ میلیارد پارامتری Fashion Florence از GPT-4o-mini دقیق‌تر است؟

یک مدل تخصصی با نام Fashion Florence با تنها ۰.۷۷ میلیارد پارامتر، در استخراج داده‌های ساختاریافته‌ی مد از تصاویر، مدل‌های پیشرویی چون GPT-4o-mini را شکست داد. این دستاورد نشان…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش BenchCAD: ناتوانی مدل‌های پیشرو در تولید کدهای اجرایی برای طراحی صنعتی

بنچمارک جدید BenchCAD نشان می‌دهد مدل‌های پیشرو در عین توانایی در تقلید بصری، در تولید کدهای پارامتریک دقیق برای تولید صنعتی شکست می‌خورند. این مطالعه شکاف عمیق میان استدلال فضایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

چارچوب استدلالی جدیدی به نام SFFL با تفکیک مسیرهای استدلال برای هر مودالیته، توهمات در مدل‌های زبانی چندوجهی را به‌طور چشم‌گیری کاهش داده است. این متد دقت کلی را ۵.۱۶٪ و نرخ کاهش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار Deep Arguing: تبدیل پیش‌بینی‌های جعبه‌سیاه به استدلال‌های منطقی و شفاف

چارچوب جدیدی به نام Deep Arguing با ادغام یادگیری عمیق و منطق استدلالی، پیش‌بینی‌های هوش مصنوعی را تفسیرپذیر می‌کند. این مدل بدون کاهش دقت، داده‌ها را به عنوان استدلال‌هایی برای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گزارش arxiv: کاهش ۳۲.۰۷ درصدی تصادفات خودروهای خودران با GuardAD

چارچوب GuardAD با تبدیل ایمنی به یک وضعیت منطقی پویا، نرخ تصادفات در مدل‌های زبانی چندوجهی (MLLM) را ۳۲.۰۷٪ کاهش داده است. این سیستم بدون نیاز به بازآموزی مدل، خطرات پنهان را…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

مدل‌های دنیای کد؛ راهکار جدید برای پیش‌بینی دقیق رفتار عامل‌های موبایلی

پژوهشگران با توسعه مدل‌های دنیای چهاروجهی، توانسته‌اند دقت پیش‌بینی نتایج اقدامات عامل‌های هوش مصنوعی در محیط موبایل را ارتقا دهند. یافته‌ها نشان می‌دهد کد‌های قابل رندر برای دقت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

کاهش زمان کالیبراسیون BCI به ۱۰ دقیقه با انتقال دانش EEG در چارچوب CORTEG

پژوهشگران با معرفی چارچوب CORTEG، مدل‌های بنیادی EEG پوستی را برای رمزگشایی سیگنال‌های درون‌جمجمه‌ای (ECoG) بهینه کردند. این رویکرد نیاز به داده‌های اختصاصی هر بیمار را به‌شدت…

۲ دقیقه خواندن