
انقلاب در دسترسی به WanVideo: یکپارچگی کامل مدلهای ویدئویی در ComfyUI
Kijai با تجمیع مدلهای پراکنده WanVideo در یک مخزن واحد، سد ورود به دنیای تولید ویدئوی محلی را شکست. این اقدام دسترسی به مدلهای کوانتیزه شده از ByteDance و Alibaba را برای…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

Kijai با تجمیع مدلهای پراکنده WanVideo در یک مخزن واحد، سد ورود به دنیای تولید ویدئوی محلی را شکست. این اقدام دسترسی به مدلهای کوانتیزه شده از ByteDance و Alibaba را برای…

مدل جدید علیبابا با ۲۷ میلیارد پارامتر، مدل غولپیکر ۳۹۷ میلیاردی предшеل خود را در بنچمارکهای کدنویسی شکست داد. این دستاورد ثابت میکند که بهینهسازی معماری بر حجم عظیم دادهها…

مؤسسه Allen AI مدل olmOCR را برای استخراج ساختاریافتهی متن از تصاویر اسناد معرفی کرد. این مدل با وزنهای باز، جایگزینی قدرتمند و محلی برای سرویسهای تجاری OCR است که پردازش انبوه…

مایکروسافت با معرفی Phi-4-multimodal-instruct، مدلهای غولآسای صوتی را به چالش کشید. این مدل ۵.۶ میلیارد پارامتری با ترکیب متن، تصویر و صوت در یک شبکه واحد، رکورد جدیدی در دقت…

تیم Wan در ۲۲ فوریه ۲۰۲۵ مدلهای Wan2.1 را منتشر کرد که ادعای برتری نسبت به رقبای بسته را دارد. این مجموعه شامل یک مدل پرچمدار ۱۴ میلیارد پارامتری و یک مدل سبک ۱.۳ میلیارد…

برای اولین بار، یک هوش مصنوعی مسیر حرکت یک کاوشگر مریخی را طراحی کرد. این اقدام باعث کاهش ۵۰ درصدی حجم کاری مهندسان ناسا شده و مسیر را برای ماموریتهای خودگردان آینده هموار میکند.
![پایان سلطه مدلهای بسته: FLUX.1 [dev] بازی را عوض میکند](/_next/image?url=https%3A%2F%2Fwww.dothoosh.com%2Fmedia%2Fdff013ee-16cd-56f4-8783-fe49fdf34157-flux-1-dev-distills-state-of-the-art-image-generation-into-open-weights-e8164f94.webp&w=1920&q=75)
شرکت **Black Forest Labs** مدل **FLUX.1 [dev]** را با ۱۲ میلیارد پارامتر و وزنهای باز عرضه کرد. این مدل در کیفیت و درک پرامپتها با رقبای تجاری برابری میکند، هرچند مجوز آن…