انقلاب در دسترسی به WanVideo: یکپارچگی کامل مدل‌های ویدئویی در ComfyUI

تصور کنید تمام مدل‌های پیشرفته تولید ویدئو در یک پوشه باشند. اگر هنوز برای اجرای مدل‌های WanVideo با پیچیدگی‌های نصب دست‌وپنجه نرم می‌کنید، وقت آن است که استراتژی خود را تغییر دهید.

Kijai در اقدامی جسورانه، چشم‌انداز پراکنده تولید ویدئوی متن‌باز را به یک آدرس واحد تبدیل کرد. به نقل از مستندات این پروژه، او تمام اکوسیستم WanVideo (برگرفته از Wan-AI) را در یک مخزن یکپارچه در Hugging Face جمع کرده است.

این مخزن شامل مدل‌های کوانتیزه (Quantized) و آماده برای ComfyUI است که سد ورود به دنیای هوش مصنوعی زاینده (Generative AI) را برای کاربران محلی می‌شکند.

طبق گزارش منتشر شده در این مخزن، مدل‌های زیر اکنون در یک نقطه متمرکز شده‌اند:

نسخه‌های تقطیری (Distilled) مدل CausVid در ابعاد ۱۴ میلیارد و ۱.۳ میلیارد پارامتر.
مدل AccVideo-WanX-T2V-14B و مدل Phantom از ByteDance Research.
مدل SkyReels V2 از Skywork و WanVideoFun از Alibaba PAI.
مدل‌های FastVideo، EchoShot، FlashVSR و چک‌پوینت Wan22 5B Turbo.
نسخه‌های آزمایشی LoRA برای CausVid (نسخه‌های v1، v1.5 و v2).

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های وزن‌های باز (Open Weights) اشاره کردیم، دسترسی آسان به مدل‌های غول‌پیکر، کلید اصلی رشد خلاقیت در جامعه است.

این مجموعه همچنین به ابزارهای کمکی مانند TinyVAE و پروژه‌های انیمیشن گفتار مثل FantasyTalking اشاره می‌کند. Kijai هشدار داده است که نسخه v1 از LoRAهای CausVid باعث ایجاد آرتیفکت‌های چشمک‌زن می‌شود، اما نسخه v2 با حذف لایه‌های اضافی، این مشکل را حل کرده است؛ هرچند v2 به گام‌های استنتاج (Inference) بیشتری نیاز دارد.

این تحول در واقع پاسخی به انفجار مدل‌های Wan2.1 (خانواده مدل‌های ویدئویی علی‌بابا) است. با بسته‌بندی این مدل‌ها برای ComfyUI، دیگر نیازی به پرداخت هزینه‌های سنگین API یا تبدیل دستی مدل‌ها نیست.

اما این تنها بخشی از ماجراست؛ رقابت بر سر استانداردهای کوانتیزه کردن در لایه‌های ترنسفورمر ۱۴ میلیارد پارامتری، فصل بعدی این جنگ است.

گام بعدی شما

مخزن Hugging Face مربوط به Kijai را ذخیره کنید.
افزونه ComfyUI-WanVideoWrapper را نصب کنید.
برای نتایج بدون لرزش، حتماً از نسخه v2 مدل‌های CausVid استفاده کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق گزارش منتشر شده در این مخزن، مدل‌های زیر اکنون در یک نقطه متمرکز شده‌اند:

نسخه‌های تقطیری (Distilled) مدل CausVid در ابعاد ۱۴ میلیارد و ۱.۳ میلیارد پارامتر.
مدل AccVideo-WanX-T2V-14B و مدل Phantom از ByteDance Research.
مدل SkyReels V2 از Skywork و WanVideoFun از Alibaba PAI.
مدل‌های FastVideo، EchoShot، FlashVSR و چک‌پوینت Wan22 5B Turbo.
نسخه‌های آزمایشی LoRA برای CausVid (نسخه‌های v1، v1.5 و v2).

گام بعدی شما

مخزن Hugging Face مربوط به Kijai را ذخیره کنید.
افزونه ComfyUI-WanVideoWrapper را نصب کنید.
برای نتایج بدون لرزش، حتماً از نسخه v2 مدل‌های CausVid استفاده کنید.

انقلاب در دسترسی به WanVideo: یکپارچگی کامل مدل‌های ویدئویی در ComfyUI

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انقلاب در دسترسی به WanVideo: یکپارچگی کامل مدل‌های ویدئویی در ComfyUI

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انقلاب در دسترسی به WanVideo: یکپارچگی کامل مدل‌های ویدئویی در ComfyUI

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

انقلاب در دسترسی به WanVideo: یکپارچگی کامل مدل‌های ویدئویی در ComfyUI

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران