پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چرخش راهبردی گوگل: Gemini چگونه جایگزین دستیار صوتی در میلیون‌ها خودرو می‌شود؟
آموزش کاربردی

چرخش راهبردی گوگل: Gemini چگونه جایگزین دستیار صوتی در میلیون‌ها خودرو می‌شود؟

گوگل در حال جایگزینی دستیار صوتی قدیمی خود با Gemini در خودروهای مجهز به Google built-in است. این تغییر، تعامل با خودرو را از دستورات ساده به گفتگوهای پیچیده و هوشمند تبدیل می‌کند…

۲ دقیقه خواندن
سراب عملکرد: چرا دقت بالای مدل‌های صوتی در پزشکی یک توهم خطرناک است

سراب عملکرد: چرا دقت بالای مدل‌های صوتی در پزشکی یک توهم خطرناک است

پژوهشگران ابزاری برای شناسایی همبستگی‌های کاذب در مجموعه‌داده‌های صوتی معرفی کرده‌اند که باعث تورم مصنوعی معیارهای موفقیت می‌شود. این ابزار مانع از آن می‌شود که مدل‌های AI به جای…

۲ دقیقه خواندن
پایان کابوس دقت در رباتیک: ATLAS چگونه مرزهای عملیاتی را بازتعریف کرد

پایان کابوس دقت در رباتیک: ATLAS چگونه مرزهای عملیاتی را بازتعریف کرد

ابزار جدید ATLAS با ترکیب داده‌های بصری و سیگنال‌های داخلی ربات، خطای مرزی در تقطیع عملیات را ۵ برابر کاهش داد. این پیشرفت، مسیر یادگیری وظایف پیچیده و طولانی‌مدت را برای ربات‌ها…

۲ دقیقه خواندن
چرا دقت ۸۵ درصدی در تحلیل اسناد، تضمین‌کننده‌ی پاسخ کامل نیست؟

چرا دقت ۸۵ درصدی در تحلیل اسناد، تضمین‌کننده‌ی پاسخ کامل نیست؟

معرفی چارچوب EnterpriseDocBench نشان می‌دهد سیستم‌های تحلیل اسناد علی‌رغم دقت بالا، در ارائه پاسخ‌های جامع شکست می‌خورند. این مطالعه همچنین برتری بازیابی ترکیبی بر بردارهای معنایی…

۲ دقیقه خواندن
CheXthought: ۶ میلیون نقطه توجه بصری برای پایان دادن به توهمات پزشکی

CheXthought: ۶ میلیون نقطه توجه بصری برای پایان دادن به توهمات پزشکی

پژوهشگران مجموعه‌داده عظیم و چندوجهی CheXthought را معرفی کردند که مسیر تفکر و نقاط تمرکز رادیولوژیست‌ها را ثبت کرده است. این ابزار با آموزش مدل‌ها برای «دیدن» مانند انسان، توهمات…

۲ دقیقه خواندن