پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

پایان عصر رگرسیون در ناوبری فضایی: رمزگشایی از قدرت Star-Fusion

پایان عصر رگرسیون در ناوبری فضایی: رمزگشایی از قدرت Star-Fusion

مدل جدید Star-Fusion با تغییر رویکرد از رگرسیون به طبقه‌بندی گسسته، مشکل «گم‌شدن در فضا» را حل کرده است. این معماری چندوجهی با دقت ۹۳.۴ درصد و تأخیر بسیار کم، استقرار ماهواره‌های…

۲ دقیقه خواندن
رمزگشایی از قدرت پنهان داده‌های متنی در مدل‌های تشخیص گفتار

رمزگشایی از قدرت پنهان داده‌های متنی در مدل‌های تشخیص گفتار

پژوهشگران راهکاری برای استفاده از داده‌های متنی خالص جهت ارتقای مدل‌های تشخیص گفتار یافته‌اند. این مطالعه نشان می‌دهد پیکربندی‌های ساده، مانند مدل‌های مدت‌زمان تصادفی، اغلب از خط…

۲ دقیقه خواندن
تله‌ی LLMها در طراحی گرافیکی: وقتی مدل‌های قدیمی دقیق‌تر عمل می‌کنند

تله‌ی LLMها در طراحی گرافیکی: وقتی مدل‌های قدیمی دقیق‌تر عمل می‌کنند

پژوهشی جدید نشان می‌دهد مدل‌های ترجمه سنتی در حفظ چیدمان بصری متون، از مدل‌های زبانی بزرگ پیشی می‌گیرند. این نتیجه‌ی غیرمنتظره، نیاز صنعت طراحی به معماری‌های ترکیبی را بیش از پیش…

۲ دقیقه خواندن
پایان عصر مدل‌های ایستا: TimeMM چگونه سلیقه لحظه‌ای کاربران را پیش‌بینی می‌کند

پایان عصر مدل‌های ایستا: TimeMM چگونه سلیقه لحظه‌ای کاربران را پیش‌بینی می‌کند

پژوهشگران چارچوب TimeMM را معرفی کردند که با استفاده از فیلترینگ طیفی شرطی‌شده با زمان، تغییرات سریع سلیقه کاربران را مدل می‌کند. این سیستم با تعادل پویا میان داده‌های بصری و…

۲ دقیقه خواندن
پایان عصر توکن‌بندی در پزشکی: چگونه MedSynapse-V شهود بالینی را بازسازی کرد

پایان عصر توکن‌بندی در پزشکی: چگونه MedSynapse-V شهود بالینی را بازسازی کرد

مدل MedSynapse-V با جایگزینی توکن‌بندی گسسته با سیستم حافظه پنهان، توانسته است «شهود بالینی» را در تشخیص‌های پزشکی شبیه‌سازی کند. این چارچوب در دقت تشخیص، عملکردی به‌مراتب برتر از…

۲ دقیقه خواندن
رمزگشایی از SeeCo: چگونه بدون آموزش مجدد، دقت سنجش از دور را بالا ببریم

رمزگشایی از SeeCo: چگونه بدون آموزش مجدد، دقت سنجش از دور را بالا ببریم

پژوهشگران چارچوب SeeCo را معرفی کردند؛ سیستمی که بدون نیاز به آموزش مجدد و هزینه‌بر، خطاهای معنایی مدل‌های سنجش از دور را در لحظه استنتاج اصلاح می‌کند. این ابزار با استفاده از…

۲ دقیقه خواندن
پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

پایان عصر مدل‌های تک‌منظوره؛ Magma-8B چگونه بازی را عوض می‌کند

مایکروسافت با معرفی Magma-8B، مرز میان مدیریت رابط کاربری و کنترل رباتیک را از بین برد. این مدل چندوجهی با وزن‌های باز، در بسیاری از بنچمارک‌ها از GPT-4V پیشی گرفته و عصر مدل‌های…

۳ دقیقه خواندن
پایان سلطه‌ی مدل‌های بسته: ویدیوهای سینمایی روی سخت‌افزار خانگی

پایان سلطه‌ی مدل‌های بسته: ویدیوهای سینمایی روی سخت‌افزار خانگی

مدل متن‌باز Wan2.1 با شکستن انحصار مدل‌های تجاری، تولید ویدیوهای باکیفیت را روی کارت‌های گرافیک معمولی ممکن کرده است. این ابزار با نیاز به حافظه گرافیکی بسیار کم، استانداردهای…

۳ دقیقه خواندن