اگر هنوز فکر میکنید ویدیوهای هوش مصنوعی فقط برای دموهای ۳ ثانیهای هستند، سخت در اشتباهید. علیبابا با عرضه HappyHorse 1.0، استانداردهای تولید رسانههای مصنوعی را برای محیطهای عملیاتی تغییر داد.
در ۲۷ آوریل ۲۰۲۶، علیبابا دسترسی عمومی به API مدلی را فراهم کرد که پیش از این در رتبهبندی تستهای کور Video Arena جایگاه نخست را به دست آورده بود. به نقل از گزارش dev.to، این سیستم اکنون از طریق EvoLink در سطح جهانی در دسترس است و از یک صفحه نمایش ساده به یک ابزار مقیاسپذیر برای توسعهدهندگان تبدیل شده است.

این API بر پایه چهار نقطه اتصال (Endpoint) طراحی شده تا جریانهای کاری حرفهای را پشتیبانی کند:
- happyhorse-1.0-t2v: تولید استاندارد ویدیو از متن.
- happyhorse-1.0-i2v: متحرکسازی تصویر به ویدیو با حفظ انسجام بصری بالا.
- happyhorse-1.0-r2v: ابزاری قدرتمند برای پایداری که از ۹ تصویر مرجع برای تثبیت سوژه و صحنه پشتیبانی میکند.
- happyhorse-1.0-video-edit: ویرایش ویدیوهای موجود با استفاده از زبان طبیعی و تا ۵ تصویر مرجع.
قیمتگذاری این سرویس بر اساس رزولوشن است؛ بهطوری که تولید ویدیو با کیفیت 720P هزینه ۰.۹ یوان و کیفیت 1080P هزینه ۱.۶ یوان بهازای هر ثانیه دارد. طبق گزارش منابع فنی، برای دریافت بهترین خروجی باید از الگوهای خاص پرامپت استفاده کرد. برای مثال، این مدل در «ریز-حرکات» چهره و سکانسهای پیچیده چند-شات (Multi-shot) که در آن انتقال بین نماها بهصورت شمارهگذاری شده است، عملکرد خیرهکنندهای دارد.
در پوشش پیشین ما از مدلهای چندوجهی، دیدیم که پایداری شخصیتها بزرگترین مانع برای پذیرش صنعتی ویدیوهای AI بود. معرفی نقطه اتصال r2v دقیقاً برای حل همین مشکل «تغییر چهره» (Character Drift) طراحی شده است. با اجازه دادن به استفاده از ۹ تصویر مرجع، علیبابا مستقیماً سازندگانی را هدف قرار داده که نیاز به کنترل دقیق روی یک سوژه ثابت در نماهای مختلف دارند تا فرآیند استنتاج (Inference) با دقت صنعتی همراه شود.
این تحول در هوش مصنوعی زاینده (Generative AI) نشان میدهد که رقابت از «تولید تصادفی» به «کنترل دقیق» منتقل شده است. اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- اگر در تولید محتوا فعالیت میکنید، نقطه اتصال r2v را برای تثبیت شخصیتهای داستانی خود تست کنید.
- برای دستیابی به پایدارترین نتایج در تبدیل تصویر به ویدیو، مدت زمان را روی ۵ ثانیه تنظیم کرده و بهجای توصیف تصویر، «اکشن» یا حرکت را شرح دهید.
- ساختار قیمتگذاری یوان-محور را با هزینههای عملیاتی خود در EvoLink تطبیق دهید.




گفتگو