پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

استراتژی توزیع گوگل: چگونه Rambler سد راه استارتاپ‌های تبدیل صدا به متن شد؟

استراتژی توزیع گوگل: چگونه Rambler سد راه استارتاپ‌های تبدیل صدا به متن شد؟

گوگل با ادغام قابلیت Rambler در Gboard، ویژگی‌های پیشرفته‌ای مثل حذف کلمات زائد را به میلیون‌ها کاربر اندروید ارائه می‌دهد. این اقدام، سدی عظیم توزیعی برای استارتاپ‌های مستقل…

۳ دقیقه خواندن
چرا گوگل برای نجات لپ‌تاپ‌های خود، اندروید و کروم‌او‌اس را با هم ترکیب کرد؟

چرا گوگل برای نجات لپ‌تاپ‌های خود، اندروید و کروم‌او‌اس را با هم ترکیب کرد؟

گوگل با معرفی خط تولید لپ‌تاپ‌های Googlebooks در پاییز ۲۰۲۶، اندروید و ChromeOS را در یک سیستم‌عامل هیبریدی ادغام می‌کند. این دستگاه‌ها با محوریت هوش مصنوعی زاینده و ابزارهای…

۲ دقیقه خواندن
چرا ریویان برای کنترل سخت‌افزار خودرو، اپل کارپلی را کنار گذاشت؟

چرا ریویان برای کنترل سخت‌افزار خودرو، اپل کارپلی را کنار گذاشت؟

شرکت ریویان دستیار صوتی مبتنی بر هوش مصنوعی خود را برای تمامی خودروهای نسل اول و دوم عرضه کرد. این سیستم برخلاف رقبای خود، به جای تکیه بر گوشی‌های هوشمند، مستقیماً سخت‌افزار خودرو…

۳ دقیقه خواندن
سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

چارچوب DRAPE با جایگزینی پرامپت‌های ایستا با پرامپت‌های نرم پویا و مختص به هر نمونه، مشکل فراموشی فاجعه‌بار در مدل‌های چندوجهی را حل می‌کند. این روش با تکیه بر شرطی‌سازی بر اساس…

۲ دقیقه خواندن
۲.۳ میلیون نمونه داده جدید برای انتقال تحلیل ماهواره‌ای به عصر استدلال زمانی

۲.۳ میلیون نمونه داده جدید برای انتقال تحلیل ماهواره‌ای به عصر استدلال زمانی

پژوهشگران با معرفی مجموعه داده SMART-HC-VQA، تحلیل تصاویر ماهواره‌ای را از تشخیص ساده‌ی تغییرات به استدلال زمانی پیچیده ارتقا دادند. این چارچوب با بهره‌گیری از مدل LLaVA-NeXT…

۲ دقیقه خواندن
سازوکار AllocMV: مدیریت منابع محاسباتی برای حفظ ثبات بصری در ویدیوهای بلند

سازوکار AllocMV: مدیریت منابع محاسباتی برای حفظ ثبات بصری در ویدیوهای بلند

AllocMV چارچوب جدیدی است که تولید ویدیوهای موسیقی را به یک مسئله تخصیص منابع تبدیل می‌کند تا هزینه‌های محاسباتی کاهش و ثبات بصری افزایش یابد. این سیستم با استفاده از یک حل‌کننده…

۲ دقیقه خواندن
LLaVA-CKD: کاهش شکاف ظرفیت در مدل‌های بینایی-زبانی از طریق تقطیر متوالی

LLaVA-CKD: کاهش شکاف ظرفیت در مدل‌های بینایی-زبانی از طریق تقطیر متوالی

چارچوب LLaVA-CKD با معرفی ساختار آموزشی پله‌ای، مشکل افت کیفیت در انتقال دانش از مدل‌های غول‌پیکر به مدل‌های کوچک را حل کرده است. این روش با استفاده از معلمان میانی، امکان استقرار…

۲ دقیقه خواندن
چرا تسلط زبانی در مدل‌های چندوجهی، نشانهٔ درک درست از تصاویر ماهواره‌ای نیست؟

چرا تسلط زبانی در مدل‌های چندوجهی، نشانهٔ درک درست از تصاویر ماهواره‌ای نیست؟

پژوهشگران با معرفی بنچمارک SenseBench دریافتند که مدل‌های بینایی-زبانی در تحلیل تصاویر ماهواره‌ای دچار «توهم روانی» هستند. این مدل‌ها توصیفاتی بسیار متقاعدکننده اما از نظر فیزیکی…

۲ دقیقه خواندن
حل چالش توزیع دم‌دراز در مدل‌های چندوجهی با رویکرد وزن‌دهی پویا

حل چالش توزیع دم‌دراز در مدل‌های چندوجهی با رویکرد وزن‌دهی پویا

پژوهشگران چارچوب جدیدی برای رفع عدم توازن کلاس‌ها در هوش مصنوعی چندوجهی معرفی کرده‌اند. این مدل با وزن‌دهی پویا به منابع داده، سوگیری به سمت کلاس‌های اکثریت را کاهش و دقت شناسایی…

۲ دقیقه خواندن
چرا پروب‌های خطی کیفیت واقعی رمزگذارهای صوتی را پنهان می‌کنند؟

چرا پروب‌های خطی کیفیت واقعی رمزگذارهای صوتی را پنهان می‌کنند؟

پژوهش‌های جدید نشان می‌دهد بنچمارک‌های استاندارد زیست‌صوتی (Bioacoustic) به دلیل استفاده از پروب‌های خطی بیش از حد ساده، کیفیت رمزگذارهای صوتی را کمتر از حد واقعی تخمین می‌زنند.…

۲ دقیقه خواندن