تصور کنید بتوانید ویدیوهایی با کیفیت سینمایی تولید کنید که تا پیش از این فقط در انحصار غولهای فناوری بود. اگر هنوز فکر میکنید سختافزار خانگی برای تولید ویدیوهای پیشرفته کافی است، باید بدانید که قواعد بازی تغییر کرده است.
در ۱۷ فوریه ۲۰۲۵، شرکت StepFun AI با انتشار کد استنتاج (Inference) و وزنهای مدل Step-Video-T2V، سقف تواناییهای هوش مصنوعی زاینده (Generative AI) در تولید ویدیوهای بازمتن را شکست. این مدل عظیم با ۳۰ میلیارد پارامتر، قادر است کلیپهایی با طول سینمایی و تا ۲۰۴ فریم تولید کند.
به نقل از مستندات فنی این پروژه، این عرضه شامل دو نسخه است: مدل پایه و نسخه Step-Video-T2V-Turbo که برای سرعت بیشتر بهینهسازی شده و تعداد گامهای استنتاج را از ۳۰-۵۰ به ۱۰-۱۵ کاهش میدهد. هر دو مدل در Hugging Face در دسترس هستند.
جزئیات فنی این تحول عبارتند از:
- استفاده از Video-VAE (Video Variational Autoencoder) با نرخ فشردهسازی ۱۶×۱۶ مکانی و ۸× زمانی.
- معماری DiT (Diffusion Transformer) با ۴۸ لایه و توجه کامل سهبعدی (3D Full Attention).
- بهکارگیری روش Flow Matching برای آموزش و مرحله DPO (Direct Preference Optimization) برای حذف مصنوعات بصری و افزایش واقعگرایی حرکت.
همانطور که در تحلیل قبلی ما دربارهی قوانین مقیاسپذیری (Scaling Laws) در مدلهای بصری اشاره کردیم، افزایش پارامترها مستقیماً با کیفیت خروجی رابطه دارد، اما این قدرت بهایی دارد. طبق گزارش مخزن Hugging Face، تولید یک ویدیوی ۵۴۴×۹۹۲ با ۲۰۴ فریم، به ۷۷.۶۴ گیگابایت حافظه گرافیکی (VRAM) نیاز دارد و حدود ۷۴۳ ثانیه زمان میبرد.
تیم توسعه توصیه میکند برای اجرای این مدل از پردازندههای گرافیکی ۸۰ گیگابایتی و سیستمعامل لینوکس استفاده شود. در واقع، این مدل برای اجرا به حداقل چهار پردازنده گرافیکی موازی نیاز دارد.
برای ارزیابی کیفیت، ابزار جدیدی به نام Step-Video-T2V-Eval معرفی شده که شامل ۱۲۸ پرامپت واقعی در ۱۱ دستهبندی مختلف است. سازندگان ادعا میکنند که این مدل در برابر موتورهای تجاری و بازمتن، برتری مطلق دارد.
این عرضه در حالی رخ میدهد که مدلهای دیگری مانند Wan2.1 نیز در حال پیشروی هستند. پیشتر در تحلیلی به پایان سلطهی مدلهای بسته و جابهجایی استانداردهای تولید ویدیو توسط Wan2.1 پرداخته بودیم. نتیجه برای متخصصان روشن است: تولید ویدیوهای بازمتن از مرحلهی «دموهای تحقیقاتی» عبور کرده و به ابزارهای تولیدی سنگین تبدیل شده است که تنها در صورت داشتن سختافزار سطح مرکز داده (Data Center) قابل دسترسی هستند.
پشتیبانی از زبانهای انگلیسی و چینی در کنار استراتژیهای موازیسازی xDiT، نشاندهندهی شتاب اکوسیستم در این مسیر است. StepFun همچنین همکاری با تیم FastVideo را برای شتاببخشی به استنتاج تایید کرده است.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- بررسی وزنهای مدل در Hugging Face برای ارزیابی کیفیت خروجیها.
- مقایسه سرعت نسخه Turbo با نسخه پایه در محیطهای ابری.
- مطالعه گزارش فنی arXiv برای درک عمیقتر از معماری DiT.




گفتگو