تصور کنید قدرت تولید ویدیوهای سینمایی، بدون نیاز به اشتراکهای گرانقیمت و در محیط محلی سیستم شما باشد. اگر هنوز به ابزارهای ابری وابسته هستید، باید بدانید که قواعد بازی همین امروز تغییر کرد.
به نقل از مستندات منتشر شده، Wan2.1 در ۲۲ فوریه ۲۰۲۵ عرضه شد و حالا مدلهای بازمتن را به سطح رقابت با غولهای بسته رسانده است. این مجموعه شامل دو مدل اصلی است:
- مدل پرچمدار ۱۴ میلیارد پارامتری: طبق گزارشهای فنی، این مدل در بنچمارکهای استاندارد، رکوردهای جدیدی را ثبت کرده و از بسیاری از راهکارهای بسته پیشی گرفته است.
- مدل سبک ۱.۳ میلیارد پارامتری: این مدل تنها به ۸.۱۹ گیگابایت حافظه گرافیکی (VRAM) نیاز دارد و میتواند یک کلیپ ۵ ثانیهای با کیفیت 480P را در حدود ۴ دقیقه روی کارت گرافیک RTX 4090 تولید کند.

این سیستم از هوش مصنوعی زاینده (Generative AI) با معماری مدل انتشار (Diffusion Model) و چارچوب Flow Matching بهره میبرد. قلب تپنده این پروژه، Wan-VAE (یک اتوانکودر متغیر سه بعدی) است که ویدیوهای 1080P را با حفظ دقیق اطلاعات زمانی کدگذاری میکند. همچنین یک رمزگذار T5، ورودیهای متنی چندزبانه را از طریق لایههای توجه متقاطع پردازش میکند.

همانطور که در تحلیل قبلی ما دربارهی رقابت مدلهای بازمتن و بسته اشاره کردیم، دموکراتیزه شدن قدرت محاسباتی کلید اصلی این تحول است. Wan2.1 فراتر از تبدیل متن به ویدیو عمل میکند:
- تولید ویدیو از تصویر و تبدیل ویدیو به صدا
- ویرایش ویدیو و سنتز تصویر
- تولید متن دوزبانه (انگلیسی و چینی) با دقت بالا درون صحنهها

بر اساس بررسی منابع متعدد، این مدلها تحت لایسنس Apache 2.0 عرضه شدهاند و تیم سازنده هیچ ادعای مالکیتی بر محتوای تولید شده ندارد. برای رسیدن به این کیفیت، تیم Wan یک خط لوله چهار مرحلهای برای پاکسازی دادهها طراحی کرد تا دینامیک حرکت و کیفیت بصری را به حداکثر برساند.

انتشار وزنهای باز و کدهای استنتاج (Inference) برای ابزارهایی مثل ComfyUI، سیگنالی است برای جذب جامعهی پژوهشگران و سازندگان. این مدل همچنین از خانوادهی Qwen برای گسترش پرامپتها استفاده میکند تا خروجیها غنیتر شوند.

نکتهی خیرهکننده این است که Wan2.1 اولین مدل تولید ویدیویی است که میتواند متنهای انگلیسی و چینی را بهطور همزمان و بدون خطا در محیط ویدیو رندر کند. این قابلیت در بررسی ۱۰۳۵ پرامپت داخلی تأیید شده است، هرچند جداول کامل بنچمارک هنوز بهطور مستقل بازبینی نشدهاند.

با پشتیبانی از GPUهای خانگی، حالا سوال اصلی این است: آیا پلتفرمهای بسته میتوانند قیمتهای خود را توجیه کنند؟ اگر ادغام این مدل در ComfyUI سرعت وعده داده شده را ارائه دهد، شاهد موجی از استودیوهای محلی خواهیم بود که APIهای ابری را کاملاً کنار میگذارند.
![[PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]](https://media.dothoosh.com/09d5b74b-d107-4ad3-b5cd-94683df8349c-7-wan-ai-wan2-1-t2v-14b-hugging-face.webp)
اما این تنها آغاز ماجراست؛ اثر موجگونهی این تصمیم بر اکوسیستم متنباز را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- نصب و تست مدل ۱.۳ میلیارد پارامتری روی سختافزارهای محلی برای ارزیابی سرعت.
- بررسی مستندات Hugging Face برای پیادهسازی مدل ۱۴ میلیارد پارامتری.
- آزمایش قابلیت تولید متن دوزبانه در صحنههای پیچیده برای تست دقت رندر.




گفتگو