موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

استراتژی توزیع گوگل: چگونه Rambler سد راه استارتاپ‌های تبدیل صدا به متن شد؟

گوگل با ادغام قابلیت Rambler در Gboard، ویژگی‌های پیشرفته‌ای مثل حذف کلمات زائد را به میلیون‌ها کاربر اندروید ارائه می‌دهد. این اقدام، سدی عظیم توزیعی برای استارتاپ‌های مستقل…

۳ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

چرا گوگل برای نجات لپ‌تاپ‌های خود، اندروید و کروم‌او‌اس را با هم ترکیب کرد؟

گوگل با معرفی خط تولید لپ‌تاپ‌های Googlebooks در پاییز ۲۰۲۶، اندروید و ChromeOS را در یک سیستم‌عامل هیبریدی ادغام می‌کند. این دستگاه‌ها با محوریت هوش مصنوعی زاینده و ابزارهای…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

چرا ریویان برای کنترل سخت‌افزار خودرو، اپل کارپلی را کنار گذاشت؟

شرکت ریویان دستیار صوتی مبتنی بر هوش مصنوعی خود را برای تمامی خودروهای نسل اول و دوم عرضه کرد. این سیستم برخلاف رقبای خود، به جای تکیه بر گوشی‌های هوشمند، مستقیماً سخت‌افزار خودرو…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرا برای مدل‌های Qwen، تکیه بر Hugging Face یک اشتباه استراتژیک است؟

پلتفرم ModelScope به منبع اصلی و معتبر مدل‌های Qwen و DAMO تبدیل شده است. اگرچه تجربه کاربری آن شبیه Hugging Face است، اما ابزارهایی مانند ms-swift سرعت تنظیم دقیق را به‌شدت…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

PhyJudge-9B: کاهش سوگیری ارزیابی قوانین فیزیک به ۳.۳٪ در مدل‌های VLM

پژوهشگران با معرفی بنچمارک PhyGround و مدل وزن‌باز PhyJudge-9B، ابزاری دقیق برای سنجش پایبندی ویدیوهای هوش مصنوعی به قوانین فیزیک ارائه کردند. این مدل در شناسایی خطاهای فیزیکی،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

چارچوب DRAPE با جایگزینی پرامپت‌های ایستا با پرامپت‌های نرم پویا و مختص به هر نمونه، مشکل فراموشی فاجعه‌بار در مدل‌های چندوجهی را حل می‌کند. این روش با تکیه بر شرطی‌سازی بر اساس…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

۲.۳ میلیون نمونه داده جدید برای انتقال تحلیل ماهواره‌ای به عصر استدلال زمانی

پژوهشگران با معرفی مجموعه داده SMART-HC-VQA، تحلیل تصاویر ماهواره‌ای را از تشخیص ساده‌ی تغییرات به استدلال زمانی پیچیده ارتقا دادند. این چارچوب با بهره‌گیری از مدل LLaVA-NeXT…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سازوکار AllocMV: مدیریت منابع محاسباتی برای حفظ ثبات بصری در ویدیوهای بلند

AllocMV چارچوب جدیدی است که تولید ویدیوهای موسیقی را به یک مسئله تخصیص منابع تبدیل می‌کند تا هزینه‌های محاسباتی کاهش و ثبات بصری افزایش یابد. این سیستم با استفاده از یک حل‌کننده…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

LLaVA-CKD: کاهش شکاف ظرفیت در مدل‌های بینایی-زبانی از طریق تقطیر متوالی

چارچوب LLaVA-CKD با معرفی ساختار آموزشی پله‌ای، مشکل افت کیفیت در انتقال دانش از مدل‌های غول‌پیکر به مدل‌های کوچک را حل کرده است. این روش با استفاده از معلمان میانی، امکان استقرار…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا تسلط زبانی در مدل‌های چندوجهی، نشانهٔ درک درست از تصاویر ماهواره‌ای نیست؟

پژوهشگران با معرفی بنچمارک SenseBench دریافتند که مدل‌های بینایی-زبانی در تحلیل تصاویر ماهواره‌ای دچار «توهم روانی» هستند. این مدل‌ها توصیفاتی بسیار متقاعدکننده اما از نظر فیزیکی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

حل چالش توزیع دم‌دراز در مدل‌های چندوجهی با رویکرد وزن‌دهی پویا

پژوهشگران چارچوب جدیدی برای رفع عدم توازن کلاس‌ها در هوش مصنوعی چندوجهی معرفی کرده‌اند. این مدل با وزن‌دهی پویا به منابع داده، سوگیری به سمت کلاس‌های اکثریت را کاهش و دقت شناسایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا پروب‌های خطی کیفیت واقعی رمزگذارهای صوتی را پنهان می‌کنند؟

پژوهش‌های جدید نشان می‌دهد بنچمارک‌های استاندارد زیست‌صوتی (Bioacoustic) به دلیل استفاده از پروب‌های خطی بیش از حد ساده، کیفیت رمزگذارهای صوتی را کمتر از حد واقعی تخمین می‌زنند.…

۲ دقیقه خواندن