
پایان عصر رگرسیون در ناوبری فضایی: رمزگشایی از قدرت Star-Fusion
مدل جدید Star-Fusion با تغییر رویکرد از رگرسیون به طبقهبندی گسسته، مشکل «گمشدن در فضا» را حل کرده است. این معماری چندوجهی با دقت ۹۳.۴ درصد و تأخیر بسیار کم، استقرار ماهوارههای…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

مدل جدید Star-Fusion با تغییر رویکرد از رگرسیون به طبقهبندی گسسته، مشکل «گمشدن در فضا» را حل کرده است. این معماری چندوجهی با دقت ۹۳.۴ درصد و تأخیر بسیار کم، استقرار ماهوارههای…

پژوهشگران راهکاری برای استفاده از دادههای متنی خالص جهت ارتقای مدلهای تشخیص گفتار یافتهاند. این مطالعه نشان میدهد پیکربندیهای ساده، مانند مدلهای مدتزمان تصادفی، اغلب از خط…

پژوهشگران راهکاری برای کاهش تأخیر در مدلهای چندوجهی (VLM) ابداع کردهاند که ارتباط بین دستگاههای لبه و ابر را بهینه میکند. این سیستم با استفاده از Meta AutoEncoder، دادههای…

محققان با معرفی چارچوب Visual-Idk، مدلهای بینایی-زبانی را قادر ساختند تا مرزهای دانش خود را بشناسند و از توهمات پرهیز کنند. این متدولوژی نرخ صداقت مدلها را از ۵۷.۹٪ به ۶۷.۳٪…

پژوهشی جدید نشان میدهد مدلهای ترجمه سنتی در حفظ چیدمان بصری متون، از مدلهای زبانی بزرگ پیشی میگیرند. این نتیجهی غیرمنتظره، نیاز صنعت طراحی به معماریهای ترکیبی را بیش از پیش…

پژوهشگران چارچوب TimeMM را معرفی کردند که با استفاده از فیلترینگ طیفی شرطیشده با زمان، تغییرات سریع سلیقه کاربران را مدل میکند. این سیستم با تعادل پویا میان دادههای بصری و…

مدل MedSynapse-V با جایگزینی توکنبندی گسسته با سیستم حافظه پنهان، توانسته است «شهود بالینی» را در تشخیصهای پزشکی شبیهسازی کند. این چارچوب در دقت تشخیص، عملکردی بهمراتب برتر از…

پژوهشگران چارچوب SeeCo را معرفی کردند؛ سیستمی که بدون نیاز به آموزش مجدد و هزینهبر، خطاهای معنایی مدلهای سنجش از دور را در لحظه استنتاج اصلاح میکند. این ابزار با استفاده از…

مایکروسافت با معرفی Phi-4-mini-instruct، مدلی با ۳.۸ میلیارد پارامتر عرضه کرد که در ریاضیات و استدلال، رقبای دو برابر بزرگتر خود را شکست میدهد. این مدل با پنجره بافت ۱۲۸ هزار…

مایکروسافت با معرفی Magma-8B، مرز میان مدیریت رابط کاربری و کنترل رباتیک را از بین برد. این مدل چندوجهی با وزنهای باز، در بسیاری از بنچمارکها از GPT-4V پیشی گرفته و عصر مدلهای…

مایکروسافت با معرفی OmniParser V2، سرعت پردازش رابط کاربری را ۶۰٪ افزایش داد. این ابزار به عاملهای هوشمند اجازه میدهد بدون نیاز به کد، هر نرمافزاری را تنها با دیدن تصویر کنترل…

مدل متنباز Wan2.1 با شکستن انحصار مدلهای تجاری، تولید ویدیوهای باکیفیت را روی کارتهای گرافیک معمولی ممکن کرده است. این ابزار با نیاز به حافظه گرافیکی بسیار کم، استانداردهای…