پایان عصر مدل‌های کوچک؟ Step-Video-T2V و انقلاب ۳۰ میلیارد پارامتری

تصور کنید بتوانید ویدیوهایی با کیفیت سینمایی تولید کنید که تا پیش از این فقط در انحصار غول‌های فناوری بود. اگر هنوز فکر می‌کنید سخت‌افزار خانگی برای تولید ویدیوهای پیشرفته کافی است، باید بدانید که قواعد بازی تغییر کرده است.

در ۱۷ فوریه ۲۰۲۵، شرکت StepFun AI با انتشار کد استنتاج (Inference) و وزن‌های مدل Step-Video-T2V، سقف توانایی‌های هوش مصنوعی زاینده (Generative AI) در تولید ویدیوهای بازمتن را شکست. این مدل عظیم با ۳۰ میلیارد پارامتر، قادر است کلیپ‌هایی با طول سینمایی و تا ۲۰۴ فریم تولید کند.

به نقل از مستندات فنی این پروژه، این عرضه شامل دو نسخه است: مدل پایه و نسخه Step-Video-T2V-Turbo که برای سرعت بیشتر بهینه‌سازی شده و تعداد گام‌های استنتاج را از ۳۰-۵۰ به ۱۰-۱۵ کاهش می‌دهد. هر دو مدل در Hugging Face در دسترس هستند.

جزئیات فنی این تحول عبارتند از:

استفاده از Video-VAE (Video Variational Autoencoder) با نرخ فشرده‌سازی ۱۶×۱۶ مکانی و ۸× زمانی.
معماری DiT (Diffusion Transformer) با ۴۸ لایه و توجه کامل سه‌بعدی (3D Full Attention).
به‌کارگیری روش Flow Matching برای آموزش و مرحله DPO (Direct Preference Optimization) برای حذف مصنوعات بصری و افزایش واقع‌گرایی حرکت.

همان‌طور که در تحلیل قبلی ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) در مدل‌های بصری اشاره کردیم، افزایش پارامترها مستقیماً با کیفیت خروجی رابطه دارد، اما این قدرت بهایی دارد. طبق گزارش مخزن Hugging Face، تولید یک ویدیوی ۵۴۴×۹۹۲ با ۲۰۴ فریم، به ۷۷.۶۴ گیگابایت حافظه گرافیکی (VRAM) نیاز دارد و حدود ۷۴۳ ثانیه زمان می‌برد.

تیم توسعه توصیه می‌کند برای اجرای این مدل از پردازنده‌های گرافیکی ۸۰ گیگابایتی و سیستم‌عامل لینوکس استفاده شود. در واقع، این مدل برای اجرا به حداقل چهار پردازنده گرافیکی موازی نیاز دارد.

برای ارزیابی کیفیت، ابزار جدیدی به نام Step-Video-T2V-Eval معرفی شده که شامل ۱۲۸ پرامپت واقعی در ۱۱ دسته‌بندی مختلف است. سازندگان ادعا می‌کنند که این مدل در برابر موتورهای تجاری و بازمتن، برتری مطلق دارد.

این عرضه در حالی رخ می‌دهد که مدل‌های دیگری مانند Wan2.1 نیز در حال پیشروی هستند. پیش‌تر در تحلیلی به پایان سلطه‌ی مدل‌های بسته و جابه‌جایی استانداردهای تولید ویدیو توسط Wan2.1 پرداخته بودیم. نتیجه برای متخصصان روشن است: تولید ویدیوهای بازمتن از مرحله‌ی «دموهای تحقیقاتی» عبور کرده و به ابزارهای تولیدی سنگین تبدیل شده است که تنها در صورت داشتن سخت‌افزار سطح مرکز داده (Data Center) قابل دسترسی هستند.

پشتیبانی از زبان‌های انگلیسی و چینی در کنار استراتژی‌های موازی‌سازی xDiT، نشان‌دهنده‌ی شتاب اکوسیستم در این مسیر است. StepFun همچنین همکاری با تیم FastVideo را برای شتاب‌بخشی به استنتاج تایید کرده است.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی وزن‌های مدل در Hugging Face برای ارزیابی کیفیت خروجی‌ها.
مقایسه سرعت نسخه Turbo با نسخه پایه در محیط‌های ابری.
مطالعه گزارش فنی arXiv برای درک عمیق‌تر از معماری DiT.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات فنی این تحول عبارتند از:

استفاده از Video-VAE (Video Variational Autoencoder) با نرخ فشرده‌سازی ۱۶×۱۶ مکانی و ۸× زمانی.
معماری DiT (Diffusion Transformer) با ۴۸ لایه و توجه کامل سه‌بعدی (3D Full Attention).
به‌کارگیری روش Flow Matching برای آموزش و مرحله DPO (Direct Preference Optimization) برای حذف مصنوعات بصری و افزایش واقع‌گرایی حرکت.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

بررسی وزن‌های مدل در Hugging Face برای ارزیابی کیفیت خروجی‌ها.
مقایسه سرعت نسخه Turbo با نسخه پایه در محیط‌های ابری.
مطالعه گزارش فنی arXiv برای درک عمیق‌تر از معماری DiT.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های کوچک؟ Step-Video-T2V و انقلاب ۳۰ میلیارد پارامتری

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های کوچک؟ Step-Video-T2V و انقلاب ۳۰ میلیارد پارامتری

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های کوچک؟ Step-Video-T2V و انقلاب ۳۰ میلیارد پارامتری

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر مدل‌های کوچک؟ Step-Video-T2V و انقلاب ۳۰ میلیارد پارامتری

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران