پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چرا در یوتیوب جدید، مهارت «معماری سیستم» جایگزین «کاریزمای شخصی» شده است؟
آموزش کاربردی

چرا در یوتیوب جدید، مهارت «معماری سیستم» جایگزین «کاریزمای شخصی» شده است؟

نقشه راهی ۳۰ روزه برای راه‌اندازی کانال‌های یوتیوب بدون چهره با استفاده از ابزارهای هوش مصنوعی. این استراتژی تمرکز را از هنر تولید محتوا به مدیریت سیستم‌های خودکار برای کسب درآمد…

۴ دقیقه خواندن
«Pixel Snapper»: ویرایشگر پیکسل‌آرت‌های تولیدشده با هوش مصنوعی | Product Hunt
سرگرمی و خلاقیت

چگونه Pixel Snapper آثار هنری پیکسلی هوش مصنوعی را آماده‌ی تولید می‌کند؟

ابزار رایگان و متن‌باز Pixel Snapper برای پاک‌سازی آثار پیکسلی تولیدشده توسط هوش مصنوعی طراحی شده است. این ابزار لبه‌های تار و ناهماهنگی‌های بصری را حذف می‌کند تا تصاویر برای…

۱ دقیقه خواندن
چگونه مدل‌سازی محدودیت‌های زمانی-مکانی پایداری ویدیو-AI را ۱.۷ برابر کرد؟

چگونه مدل‌سازی محدودیت‌های زمانی-مکانی پایداری ویدیو-AI را ۱.۷ برابر کرد؟

پژوهشگران با معرفی روش انتشار کران‌های زمانی-مکانی (STBP)، دقت اثبات‌شده در شبکه‌های عصبی سه-بعدی را ۱.۷ برابر افزایش دادند. این چارچوب به جای تکیه بر نویزهای تصادفی، محدودیت‌های…

۲ دقیقه خواندن
AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

چارچوب AHA-WAM با جداسازی پیش‌بینی جهان از اجرای عملیات، تأخیر کنترل بسته-حلقه در ربات‌ها را ۴.۵۹ برابر کاهش داده است. این معماری مبتنی بر ترنسفورمرهای انتشار دوگانه، امکان کنترل…

۲ دقیقه خواندن
چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

پژوهشگران بنچمارک OmniGameArena را برای اندازه‌گیری نحوه بهبود عامل‌های مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کرده‌اند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

۱ دقیقه خواندن
MeCo: اصلاح تک‌مرحله‌ای با MeanFlow برای ارتقای کیفیت جداسازی گفتار به سطح SOTA

MeCo: اصلاح تک‌مرحله‌ای با MeanFlow برای ارتقای کیفیت جداسازی گفتار به سطح SOTA

سیستم MeCo با استفاده از رویکرد MeanFlow، شکاف میان معیارهای ریاضی و کیفیت شنیداری انسان در جداسازی گفتار چندکاناله را پر می‌کند. این مدل یک «اصلاح‌گر» تک‌مرحله‌ای است که…

۱ دقیقه خواندن
چگونه «باز کردن قفل» مدل‌های معلم، دقت تشخیص ناهماهنگی‌های صنعتی را بالا برد؟

چگونه «باز کردن قفل» مدل‌های معلم، دقت تشخیص ناهماهنگی‌های صنعتی را بالا برد؟

یک چارچوب جدید برای تشخیص ناهماهنگی‌های صنعتی با ترکیب پرومپت‌های بصری و نظارت دوقلو، مشکل تغییرات مقیاس و نورپردازی در محیط‌های واقعی را حل کرده است. این روش در بنچمارک AeBAD،…

۱ دقیقه خواندن
کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

پژوهشگران دریافتند که توکن‌های بصری در مدل‌های چندوجهی پیش از رسیدن به لایه‌های نهایی اشباع می‌شوند. چارچوب DPVR-LF با مسیریابی این توکن‌ها به یک شاخه جانبی، عملکرد مدل را با تنها…

۲ دقیقه خواندن
چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

محققان مجموعه‌داده‌ی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش می‌کند که سیستم‌های فعلی هوش مصنوعی در تشخیص ناهماهنگی‌های تاریخی ظریف و…

۱ دقیقه خواندن
برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

تحلیلی بر مدل‌های بنیادی ویدیو نشان می‌دهد که V-JEPA در درک قوانین فیزیک شهودی را به مدل‌های مبتنی بر انتشار و بازسازی پیشی می‌برد. این یافته‌ها تأیید می‌کند که هدف پیش‌آموزش…

۱ دقیقه خواندن
ATN3D: افزایش ۸.۴۱ درصدی دقت تشخیص اشیاء سه‌بعدی در مه غلیظ

ATN3D: افزایش ۸.۴۱ درصدی دقت تشخیص اشیاء سه‌بعدی در مه غلیظ

چارچوب ATN3D با ادغام هوشمند لایدار و رادار، مشکل پراکندگی داده‌ها در تشخیص اشیاء دوردست را حل کرده است. این مدل دقت شناسایی را در مه غلیظ ۸.۴۱٪ بهبود می‌بخشد و زمان تصمیم‌گیری…

۲ دقیقه خواندن
سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

چارچوب ReCoVLA با استفاده از مدل‌های چندوجهی برای هدایت پاداش‌ها، توانایی ربات‌ها در بازیابی از شکست‌ها را بدون نیاز به بازآموزی سیاست اصلی افزایش می‌دهد. این روش نرخ موفقیت…

۱ دقیقه خواندن