پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

ترکیب‌بندی گفتار با قدرت مدل‌های زبانی بزرگ: بررسی عمیق

پردازش سیگنال در برابر مدل‌های زبانی؛ مسیر جدید کاهش هزینه صوت

سنتز گفتار از پردازش سیگنال به سمت مدل‌سازی خودبازگشتی زبانی حرکت کرده و با صوت به عنوان توکن‌های گسسته برخورد می‌کند. این تغییر، شبیه‌سازی صفر-نمونه و لحن پویا را ممکن کرده، اما…

۴ دقیقه خواندن
ساخت خط بصری موسیقی تکرارپذیر: از یک فایل صوتی برای تیک‌تاک، ریلز اینستاگرام، شورتز یوتیوب و اسپاتیفای کَنِوَس

مسیر تک‌فایلی تولید موزیک‌ویدیو برای هنرمندان مستقل با ابزارهای هوش مصنوعی

یک گردش کار جدید به موسیقی‌دانان اجازه می‌دهد تا تنها با یک فایل صوتی، یک ویدیوی عمودی جامع برای تیک‌تاک، اینستاگرام، یوتیوب و اسپوتیف بسازند. این سیستم با حذف نیاز به تیم‌های…

۵ دقیقه خواندن
ویدیوی «فوری» رئیستان؟ چشمان دیگر نمی‌توانند جعلی بودن آن را تشخیص دهند

تشخیص‌دهنده‌های تجاری در برابر مدل‌های انتشار؛ شکست در ۲۲٪ موارد

بنچمارک‌های جدید نشان می‌دهند تشخیص‌دهنده‌های تجاری در برابر مدل‌های انتشار شکست می‌خورند و ۲۲٪ از ویدیوهای جعلی از سد آن‌ها می‌گذرند. کارشناسان خواستار جایگزینی تشخیص‌های احتمالی…

۳ دقیقه خواندن
آنچه در هفته اول کارآموزی هوش مصنوعی در PreserveMy.World درباره بازسازی سه‌بعدی آموختم
داستان‌ها و مصاحبه‌هاتأییدنشده · منبع منفرد

۵ روش بازسازی سه‌بعدی برای دیجیتالی کردن میراث فرهنگی

پژوهگران PreserveMy.World در حال ارزیابی پنج تکنیک بازسازی سه‌بعدی برای ثبت دیجیتال مکان‌های تاریخی هستند. هدف این پروژه، ایجاد تعادلی میان کیفیت بصری و محدودیت‌های جمع‌آوری داده…

۲ دقیقه خواندن
انقلاب تعامل ویدیویی لحظه‌ای با هوش مصنوعی: معرفی Wan Streamer

آیا مدل Wan-Streamer می‌تواند تعاملات ویدئویی را به زمان واقعی تبدیل کند؟

تیم تحقیقاتی علی‌بابا مدل Wan-Streamer را معرفی کرد؛ نخستین مدل یکپارچه‌ای که متن، صوت و ویدیو را به‌طور هم‌زمان پردازش می‌کند. این معماری با حذف زنجیره‌های پردازش متوالی، تأخیر…

۲ دقیقه خواندن