
«بدون حساب کاربری»؛ رویکرد Inithouse برای حذف اصطکاک در تولید ویدیو
استودیوی Inithouse با عرضه Alive Photo، مدلی از ابزارهای هوش مصنوعی بدون نیاز به حساب کاربری و ذخیرهسازی داده را معرفی کرد. این سیستم با استفاده از معماری بدون سرور، تمام…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

استودیوی Inithouse با عرضه Alive Photo، مدلی از ابزارهای هوش مصنوعی بدون نیاز به حساب کاربری و ذخیرهسازی داده را معرفی کرد. این سیستم با استفاده از معماری بدون سرور، تمام…

یک پروژه کاربردی جدید نشان میدهد چگونه میتوان با استفاده از PyTorch و مدل پیشآموز ResNet-50، سامانهای برای تشخیص هویت نقاشان ساخت. این روش با بهرهگیری از یادگیری انتقالی،…

یک راهنمای فنی جدید روش تبدیل توصیفات متنی به فایلهای MIDI قابل پخش را از طریق تولید نمادگذاری ABC توسط مدلهای زبانی نشان میدهد. این گردشکار با استفاده از Oxlo.ai برای استنتاج…

سنتز گفتار از پردازش سیگنال به سمت مدلسازی خودبازگشتی زبانی حرکت کرده و با صوت به عنوان توکنهای گسسته برخورد میکند. این تغییر، شبیهسازی صفر-نمونه و لحن پویا را ممکن کرده، اما…

یک گردش کار جدید به موسیقیدانان اجازه میدهد تا تنها با یک فایل صوتی، یک ویدیوی عمودی جامع برای تیکتاک، اینستاگرام، یوتیوب و اسپوتیف بسازند. این سیستم با حذف نیاز به تیمهای…

بنچمارکهای جدید نشان میدهند تشخیصدهندههای تجاری در برابر مدلهای انتشار شکست میخورند و ۲۲٪ از ویدیوهای جعلی از سد آنها میگذرند. کارشناسان خواستار جایگزینی تشخیصهای احتمالی…

پژوهگران PreserveMy.World در حال ارزیابی پنج تکنیک بازسازی سهبعدی برای ثبت دیجیتال مکانهای تاریخی هستند. هدف این پروژه، ایجاد تعادلی میان کیفیت بصری و محدودیتهای جمعآوری داده…

ابزار جدید Ad Reframe با استفاده از هوش مصنوعی، تبلیغات عمودی ۹:۱۶ را به فرمت عریض ۱۶:۹ برای تلویزیونهای هوشمند تبدیل میکند. این سیستم بهجای استفاده از تاری یا نوارهای سیاه،…

مدل Seedance 2.0 شرکت بایتدنس با تمرکز بر تبدیل تصویر به ویدیو و همزمانی بومی صدا، اجازه میدهد کاربران با دستورات حرکتی دقیق، کلیپهای باکیفیت تولید کنند. این مدل از طریق…

اپل در بتای توسعهدهندگان iOS 27، قابلیتهای هوش مصنوعی بصری (Visual Intelligence) را مستقیماً در اپلیکیشن دوربین ادغام کرد. این تغییر باعث میشود کاربران بدون خروج از دوربین،…

تیم تحقیقاتی علیبابا مدل Wan-Streamer را معرفی کرد؛ نخستین مدل یکپارچهای که متن، صوت و ویدیو را بهطور همزمان پردازش میکند. این معماری با حذف زنجیرههای پردازش متوالی، تأخیر…

پلتفرم Aantraa با استفاده از لایهبندی مدلهای زبانی و ابزار FFmpeg، فرآیند ترجمه، دوبله و استخراج کلیپهای کوتاه را بهطور کامل خودکار کرده است. این پروژه نشان میدهد که ترکیب…