موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

خط لوله تولید ویدیوی ما در اینیت‌هاوس برای متحرک‌سازی عکس در مرورگر

«بدون حساب کاربری»؛ رویکرد Inithouse برای حذف اصطکاک در تولید ویدیو

استودیوی Inithouse با عرضه Alive Photo، مدلی از ابزارهای هوش مصنوعی بدون نیاز به حساب کاربری و ذخیره‌سازی داده را معرفی کرد. این سیستم با استفاده از معماری بدون سرور، تمام…

۴ دقیقه خواندن

ساخت مدل نسبت‌دهی اثر هنری با PyTorch و ResNet-50

آموزش کاربردی۷ ساعت پیش

یادگیری انتقالی چگونه سرعت تشخیص اثرات هنری را افزایش می‌دهد؟

یک پروژه کاربردی جدید نشان می‌دهد چگونه می‌توان با استفاده از PyTorch و مدل پیش‌آموز ResNet-50، سامانه‌ای برای تشخیص هویت نقاشان ساخت. این روش با بهره‌گیری از یادگیری انتقالی،…

۵ دقیقه خواندن

ابزار تولید موسیقی با مدل زبانی بزرگ: راهنمای عملی

آموزش کاربردیدیروز

تبدیل متن به موسیقی با Llama-3.3-70b و فرمت ABC

یک راهنمای فنی جدید روش تبدیل توصیفات متنی به فایل‌های MIDI قابل پخش را از طریق تولید نمادگذاری ABC توسط مدل‌های زبانی نشان می‌دهد. این گردش‌کار با استفاده از Oxlo.ai برای استنتاج…

۳ دقیقه خواندن

ترکیب‌بندی گفتار با قدرت مدل‌های زبانی بزرگ: بررسی عمیق

آموزش کاربردیدیروز

پردازش سیگنال در برابر مدل‌های زبانی؛ مسیر جدید کاهش هزینه صوت

سنتز گفتار از پردازش سیگنال به سمت مدل‌سازی خودبازگشتی زبانی حرکت کرده و با صوت به عنوان توکن‌های گسسته برخورد می‌کند. این تغییر، شبیه‌سازی صفر-نمونه و لحن پویا را ممکن کرده، اما…

۴ دقیقه خواندن

ساخت خط بصری موسیقی تکرارپذیر: از یک فایل صوتی برای تیک‌تاک، ریلز اینستاگرام، شورتز یوتیوب و اسپاتیفای کَنِوَس

آموزش کاربردیدیروز

مسیر تک‌فایلی تولید موزیک‌ویدیو برای هنرمندان مستقل با ابزارهای هوش مصنوعی

یک گردش کار جدید به موسیقی‌دانان اجازه می‌دهد تا تنها با یک فایل صوتی، یک ویدیوی عمودی جامع برای تیک‌تاک، اینستاگرام، یوتیوب و اسپوتیف بسازند. این سیستم با حذف نیاز به تیم‌های…

۵ دقیقه خواندن

ویدیوی «فوری» رئیستان؟ چشمان دیگر نمی‌توانند جعلی بودن آن را تشخیص دهند

آموزش کاربردیدیروز

تشخیص‌دهنده‌های تجاری در برابر مدل‌های انتشار؛ شکست در ۲۲٪ موارد

بنچمارک‌های جدید نشان می‌دهند تشخیص‌دهنده‌های تجاری در برابر مدل‌های انتشار شکست می‌خورند و ۲۲٪ از ویدیوهای جعلی از سد آن‌ها می‌گذرند. کارشناسان خواستار جایگزینی تشخیص‌های احتمالی…

۳ دقیقه خواندن

آنچه در هفته اول کارآموزی هوش مصنوعی در PreserveMy.World درباره بازسازی سه‌بعدی آموختم

داستان‌ها و مصاحبه‌هادیروزتأییدنشده · منبع منفرد

۵ روش بازسازی سه‌بعدی برای دیجیتالی کردن میراث فرهنگی

پژوهگران PreserveMy.World در حال ارزیابی پنج تکنیک بازسازی سه‌بعدی برای ثبت دیجیتال مکان‌های تاریخی هستند. هدف این پروژه، ایجاد تعادلی میان کیفیت بصری و محدودیت‌های جمع‌آوری داده…

۲ دقیقه خواندن

متن جایگزین: «نوارهای سیاه ویدیو را دوست ندارم. پس برای همیشه آن‌ها را حذف می‌کنیم.»

سرگرمی و خلاقیتدیروز

«بازسازی محتوای اطراف»؛ راهکار Ad Reframe برای نمایشگرهای هوشمند

ابزار جدید Ad Reframe با استفاده از هوش مصنوعی، تبلیغات عمودی ۹:۱۶ را به فرمت عریض ۱۶:۹ برای تلویزیون‌های هوشمند تبدیل می‌کند. این سیستم به‌جای استفاده از تاری یا نوارهای سیاه،…

۲ دقیقه خواندن

راهنمای عملی تبدیل تصویر به ویدیو با Seedance 2.0

آموزش کاربردیپریروز

Seedance 2.0 بایت‌دنس: تبدیل تصاویر به ویدیو با کنترل دقیق حرکات دوربین

مدل Seedance 2.0 شرکت بایت‌دنس با تمرکز بر تبدیل تصویر به ویدیو و هم‌زمانی بومی صدا، اجازه می‌دهد کاربران با دستورات حرکتی دقیق، کلیپ‌های باکیفیت تولید کنند. این مدل از طریق…

۴ دقیقه خواندن

استفاده از حالت سیری در دوربین iOS ۲۷ برای پرسیدن سوال درباره هر چیزی که می‌بینم

آموزش کاربردیپریروز

ادغام هوش مصنوعی بصری در دوربین iOS 27؛ پایان نیاز به خروج از اپلیکیشن

اپل در بتای توسعه‌دهندگان iOS 27، قابلیت‌های هوش مصنوعی بصری (Visual Intelligence) را مستقیماً در اپلیکیشن دوربین ادغام کرد. این تغییر باعث می‌شود کاربران بدون خروج از دوربین،…

۶ دقیقه خواندن

انقلاب تعامل ویدیویی لحظه‌ای با هوش مصنوعی: معرفی Wan Streamer

اخبار کوتاه روزانهپریروز

آیا مدل Wan-Streamer می‌تواند تعاملات ویدئویی را به زمان واقعی تبدیل کند؟

تیم تحقیقاتی علی‌بابا مدل Wan-Streamer را معرفی کرد؛ نخستین مدل یکپارچه‌ای که متن، صوت و ویدیو را به‌طور هم‌زمان پردازش می‌کند. این معماری با حذف زنجیره‌های پردازش متوالی، تأخیر…

۲ دقیقه خواندن

آموزش کاربردیپریروز

خط لوله Aantraa: ترجمهٔ ویدیو به ۹۰ زبان در یک هفته

پلتفرم Aantraa با استفاده از لایه‌بندی مدل‌های زبانی و ابزار FFmpeg، فرآیند ترجمه، دوبله و استخراج کلیپ‌های کوتاه را به‌طور کامل خودکار کرده است. این پروژه نشان می‌دهد که ترکیب…

۴ دقیقه خواندن