تصور کنید ویدیوهای هوش مصنوعی دیگر فیلمهای صامت نباشند و صدا دقیقاً با هر حرکت تصویر جفت شود. اگر هنوز برای افزودن صدا به ویدیوهای تولیدشده با هوش مصنوعی از ابزارهای جداگانه استفاده میکنید، باید بدانید که قواعد بازی تغییر کرده است.
تا پیش از این، اکثر ابزارهای تولید ویدیو از مدل انتشار (Diffusion Model) — تشبیه روزمره: مثل مجسمهسازی که از یک تودهی بیشکل، ذرهذره تصویر را بیرون میکشد — استفاده میکردند. این روش باعث میشد صدا یا در مرحلهی پستولید اضافه شود یا کاملاً ناهماهنگ باشد. اما HappyHorse 1.0 با استفاده از یک ترنسفورمر (Transformer) — تشبیه روزمره: مثل رهبر ارکستری که همزمان تمام سازهها را میبیند و هماهنگ میکند — با ۱۵ میلیارد پارامتر، صدا و تصویر را در یک مرحلهی استنتاج (Inference) — تشبیه روزمره: لحظهای که مدل واقعاً جواب تولید میکند، مثل خودِ آشپزی نه دورهی آموزش آن — خلق میکند.
همانطور که در تحلیلهای پیشین ما دربارهی تکامل مدلهای چندوجهی اشاره کردیم، هدف نهایی رسیدن به درکی یکپارچه از حسهای مختلف است. طبق گزارشی که در ۱۱ مه ۲۰۲۶ در وبسایت dev.to منتشر شد، این سیستم بدون نیاز به مراحل مجزای صوتی، به کیفیت خیرهکنندهای دست یافته است. جزئیات فنی این مدل عبارتند از:
- عملکرد: کسب رتبهی اول توسط Artificial Analysis با امتیاز Elo ۱۳۳۳ برای تبدیل متن به ویدیو (T2V) و ۱۳۹۲ برای تبدیل تصویر به ویدیو (I2V).
- قابلیتها: پشتیبانی از پرامپتهای زبان طبیعی، متحرکسازی تصاویر مرجع و ویرایش مستقیم ویدیو.
- دسترسی: در حال حاضر رایگان و بدون نیاز به ثبتنام.
این تحول برای تولیدکنندگان محتوا و تیمهای مارکتینگ به این معناست که «شکاف همزمانی» که ویدیوهای هوش مصنوعی را غیرطبیعی یا آماتور جلوه میداد، از بین رفته است. به باور تحلیلگران، یکپارچهسازی صدا و تصویر در یک پاس ترنسفورمر، زمان تولید محتواهای کوتاه شبکههای اجتماعی را از چندین ساعت به چند ثانیه کاهش میدهد.
گام بعدی شما
- همین حالا پلتفرم HappyHorse را تست کنید تا میزان هماهنگی صدا در صحنههای پیچیده را بسنجید.
- اگر تولیدکننده محتوا هستید، گردش کار خود را از «تولید ویدیو $\rightarrow$ افزودن صدا» به «تولید یکپارچه» تغییر دهید.
- بررسی کنید که آیا مدلهای رقیب نیز به سمت معماری ترنسفورمرهای یکپارچه حرکت میکنند یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو