موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چرا در یوتیوب جدید، مهارت «معماری سیستم» جایگزین «کاریزمای شخصی» شده است؟

نقشه راهی ۳۰ روزه برای راه‌اندازی کانال‌های یوتیوب بدون چهره با استفاده از ابزارهای هوش مصنوعی. این استراتژی تمرکز را از هنر تولید محتوا به مدیریت سیستم‌های خودکار برای کسب درآمد…

۴ دقیقه خواندن

«Pixel Snapper»: ویرایشگر پیکسل‌آرت‌های تولیدشده با هوش مصنوعی | Product Hunt

سرگرمی و خلاقیت۳ هفته پیش

چگونه Pixel Snapper آثار هنری پیکسلی هوش مصنوعی را آماده‌ی تولید می‌کند؟

ابزار رایگان و متن‌باز Pixel Snapper برای پاک‌سازی آثار پیکسلی تولیدشده توسط هوش مصنوعی طراحی شده است. این ابزار لبه‌های تار و ناهماهنگی‌های بصری را حذف می‌کند تا تصاویر برای…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه مدل‌سازی محدودیت‌های زمانی-مکانی پایداری ویدیو-AI را ۱.۷ برابر کرد؟

پژوهشگران با معرفی روش انتشار کران‌های زمانی-مکانی (STBP)، دقت اثبات‌شده در شبکه‌های عصبی سه-بعدی را ۱.۷ برابر افزایش دادند. این چارچوب به جای تکیه بر نویزهای تصادفی، محدودیت‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

چارچوب AHA-WAM با جداسازی پیش‌بینی جهان از اجرای عملیات، تأخیر کنترل بسته-حلقه در ربات‌ها را ۴.۵۹ برابر کاهش داده است. این معماری مبتنی بر ترنسفورمرهای انتشار دوگانه، امکان کنترل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا نمرات «شروع سرد» برای سنجش قابلیت یادگیری عامل‌های VLM کافی نیستند؟

پژوهشگران بنچمارک OmniGameArena را برای اندازه‌گیری نحوه بهبود عامل‌های مدل زبانی-دیداری از طریق بازتاب خودکار معرفی کرده‌اند. برخلاف تابلوهای امتیازات ایستا، این سیستم مسیر…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

MeCo: اصلاح تک‌مرحله‌ای با MeanFlow برای ارتقای کیفیت جداسازی گفتار به سطح SOTA

سیستم MeCo با استفاده از رویکرد MeanFlow، شکاف میان معیارهای ریاضی و کیفیت شنیداری انسان در جداسازی گفتار چندکاناله را پر می‌کند. این مدل یک «اصلاح‌گر» تک‌مرحله‌ای است که…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه «باز کردن قفل» مدل‌های معلم، دقت تشخیص ناهماهنگی‌های صنعتی را بالا برد؟

یک چارچوب جدید برای تشخیص ناهماهنگی‌های صنعتی با ترکیب پرومپت‌های بصری و نظارت دوقلو، مشکل تغییرات مقیاس و نورپردازی در محیط‌های واقعی را حل کرده است. این روش در بنچمارک AeBAD،…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

پژوهشگران دریافتند که توکن‌های بصری در مدل‌های چندوجهی پیش از رسیدن به لایه‌های نهایی اشباع می‌شوند. چارچوب DPVR-LF با مسیریابی این توکن‌ها به یک شاخه جانبی، عملکرد مدل را با تنها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا مدل‌های چندوجهی در تشخیص ناهماهنگی‌های تاریخی شکست می‌خورند؟

محققان مجموعه‌داده‌ی ArtiFact را شامل بیش از ۶۵۰ هزار رکورد میراث فرهنگی منتشر کردند. این بنچمارک فاش می‌کند که سیستم‌های فعلی هوش مصنوعی در تشخیص ناهماهنگی‌های تاریخی ظریف و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

تحلیلی بر مدل‌های بنیادی ویدیو نشان می‌دهد که V-JEPA در درک قوانین فیزیک شهودی را به مدل‌های مبتنی بر انتشار و بازسازی پیشی می‌برد. این یافته‌ها تأیید می‌کند که هدف پیش‌آموزش…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

ATN3D: افزایش ۸.۴۱ درصدی دقت تشخیص اشیاء سه‌بعدی در مه غلیظ

چارچوب ATN3D با ادغام هوشمند لایدار و رادار، مشکل پراکندگی داده‌ها در تشخیص اشیاء دوردست را حل کرده است. این مدل دقت شناسایی را در مه غلیظ ۸.۴۱٪ بهبود می‌بخشد و زمان تصمیم‌گیری…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

چارچوب ReCoVLA با استفاده از مدل‌های چندوجهی برای هدایت پاداش‌ها، توانایی ربات‌ها در بازیابی از شکست‌ها را بدون نیاز به بازآموزی سیاست اصلی افزایش می‌دهد. این روش نرخ موفقیت…

۱ دقیقه خواندن