تصور کنید تمام مدلهای پیشرفته تولید ویدئو در یک پوشه باشند. اگر هنوز برای اجرای مدلهای WanVideo با پیچیدگیهای نصب دستوپنجه نرم میکنید، وقت آن است که استراتژی خود را تغییر دهید.
Kijai در اقدامی جسورانه، چشمانداز پراکنده تولید ویدئوی متنباز را به یک آدرس واحد تبدیل کرد. به نقل از مستندات این پروژه، او تمام اکوسیستم WanVideo (برگرفته از Wan-AI) را در یک مخزن یکپارچه در Hugging Face جمع کرده است.
این مخزن شامل مدلهای کوانتیزه (Quantized) و آماده برای ComfyUI است که سد ورود به دنیای هوش مصنوعی زاینده (Generative AI) را برای کاربران محلی میشکند.
طبق گزارش منتشر شده در این مخزن، مدلهای زیر اکنون در یک نقطه متمرکز شدهاند:
- نسخههای تقطیری (Distilled) مدل CausVid در ابعاد ۱۴ میلیارد و ۱.۳ میلیارد پارامتر.
- مدل AccVideo-WanX-T2V-14B و مدل Phantom از ByteDance Research.
- مدل SkyReels V2 از Skywork و WanVideoFun از Alibaba PAI.
- مدلهای FastVideo، EchoShot، FlashVSR و چکپوینت Wan22 5B Turbo.
- نسخههای آزمایشی LoRA برای CausVid (نسخههای v1، v1.5 و v2).
همانطور که در تحلیل قبلی ما دربارهی مدلهای وزنهای باز (Open Weights) اشاره کردیم، دسترسی آسان به مدلهای غولپیکر، کلید اصلی رشد خلاقیت در جامعه است.
این مجموعه همچنین به ابزارهای کمکی مانند TinyVAE و پروژههای انیمیشن گفتار مثل FantasyTalking اشاره میکند. Kijai هشدار داده است که نسخه v1 از LoRAهای CausVid باعث ایجاد آرتیفکتهای چشمکزن میشود، اما نسخه v2 با حذف لایههای اضافی، این مشکل را حل کرده است؛ هرچند v2 به گامهای استنتاج (Inference) بیشتری نیاز دارد.
این تحول در واقع پاسخی به انفجار مدلهای Wan2.1 (خانواده مدلهای ویدئویی علیبابا) است. با بستهبندی این مدلها برای ComfyUI، دیگر نیازی به پرداخت هزینههای سنگین API یا تبدیل دستی مدلها نیست.
اما این تنها بخشی از ماجراست؛ رقابت بر سر استانداردهای کوانتیزه کردن در لایههای ترنسفورمر ۱۴ میلیارد پارامتری، فصل بعدی این جنگ است.
گام بعدی شما
- مخزن Hugging Face مربوط به Kijai را ذخیره کنید.
- افزونه ComfyUI-WanVideoWrapper را نصب کنید.
- برای نتایج بدون لرزش، حتماً از نسخه v2 مدلهای CausVid استفاده کنید.




گفتگو