
آیا مدل Fury میتواند تعریف «سرباز» را برای همیشه تغییر دهد؟
استارتاپ Scout AI با جذب ۱۰۰ میلیون دلار سرمایه، مدل Fury را برای فرماندهی خودروها و تسلیحات خودمختار در مناطق جنگی توسعه میدهد. این شرکت با استفاده از مدلهای VLA قصد دارد هوش…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

استارتاپ Scout AI با جذب ۱۰۰ میلیون دلار سرمایه، مدل Fury را برای فرماندهی خودروها و تسلیحات خودمختار در مناطق جنگی توسعه میدهد. این شرکت با استفاده از مدلهای VLA قصد دارد هوش…

تیم Deep-unlearning با معرفی smol-audio، دسترسی به تنظیم دقیق مدلهای پیشرفتهی صوتی را از طریق نوتبوکهای آمادهی Colab ممکن کرد. این ابزار با بهرهگیری از اکوسیستم Hugging…

متا با معرفی NeuralSet، معماری دادههای مغزی را دگرگون کرد. این ابزار با جداسازی متادادهها از سیگنالهای خام، سرعت و مقیاسپذیری تحلیلهای Neuro-AI را به شدت افزایش میدهد.

مدلهای Qwen و DeepSeek با معرفی ابزارهای تفسیرپذیری و چارچوبهای جدید استدلالی، قدرت مدلهای محلی را به سطح جدیدی رساندند. این تحول به معنای گذار از مدلهای «جعبه سیاه» به…

آمازون با معرفی قابلیت Join the chat، تجربه خرید را از جستجوی متنی به گفتگوهای صوتی زنده تبدیل کرده است. این ابزار با ترکیب مشخصات فنی و نظرات کاربران، نقش یک کارشناس فروش مجازی…

انویدیا با معرفی Nemotron 3 Nano Omni، استانداردهای تحلیل اسناد و ویدئو را جابهجا کرد. این مدل با معماری ترکیبی، کارایی را در پردازشهای پیچیده تا ۹ برابر افزایش داده است.

شرکت Mistral AI مدل Voxtral TTS را معرفی کرد؛ یک مدل ۴ میلیارد پارامتری که در طبیعی بودن صدا، ElevenLabs را شکست میدهد. این مدل با تأخیر بسیار کم و قابلیت تطبیق سریع صدا،…

تولید ویدئو با هوش مصنوعی از ابر به دسکتاپ نقل مکان کرده است. مدلهای جدیدی مانند HunyuanVideo کیفیت تجاری را روی سختافزارهای مصرفکننده ممکن کردهاند و نیاز به اشتراکهای…

مایکروسافت با معرفی VibeVoice، عصر خرد کردن فایلهای صوتی را به پایان رساند. این چارچوب قادر است فایلهای ۶۰ دقیقهای را در یک مرحله پردازش کند و انسجام لحن گوینده را در بازههای…

گوگل در حال آزمایش Ask YouTube است؛ قابلیتی که لیستهای سنتی جستجو را با یک رابط گفتگوی مبتنی بر هوش مصنوعی جایگزین میکند. این ابزار نتایج را به صورت ترکیبی از متن و ویدیو ارائه…

سری مدلهای جدید Qwen3-VL با معرفی معماریهای DeepStack و MRope، استانداردهای درک ویدیو را تغییر دادند. این مدلها با استفاده از همراستاسازی متنی، دقت خیرهکنندهای در شناسایی…

پلتفرم OpenMOSS با معرفی MOSS-Audio، مرزهای تحلیل صوتی را جابهجا کرد. این مدل بنیادی با معماری نوآورانه، توانسته است در نسخهی ۸ میلیاردی خود، مدلهای ۳۰ میلیاردی را در دقت تحلیل…