موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

آیا مدل Fury می‌تواند تعریف «سرباز» را برای همیشه تغییر دهد؟

استارتاپ Scout AI با جذب ۱۰۰ میلیون دلار سرمایه، مدل Fury را برای فرماندهی خودروها و تسلیحات خودمختار در مناطق جنگی توسعه می‌دهد. این شرکت با استفاده از مدل‌های VLA قصد دارد هوش…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چگونه smol-audio سد محاسباتی تنظیم دقیق مدل‌های صوتی را شکست؟

تیم Deep-unlearning با معرفی smol-audio، دسترسی به تنظیم دقیق مدل‌های پیشرفته‌ی صوتی را از طریق نوت‌بوک‌های آماده‌ی Colab ممکن کرد. این ابزار با بهره‌گیری از اکوسیستم Hugging…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

پایان کابوس کرش‌های حافظه در تحلیل داده‌های مغزی با NeuralSet

متا با معرفی NeuralSet، معماری داده‌های مغزی را دگرگون کرد. این ابزار با جداسازی متاداده‌ها از سیگنال‌های خام، سرعت و مقیاس‌پذیری تحلیل‌های Neuro-AI را به شدت افزایش می‌دهد.

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرا شفافیت در مدل‌های بازمتن، از قدرت خام مهم‌تر است؟

مدل‌های Qwen و DeepSeek با معرفی ابزارهای تفسیرپذیری و چارچوب‌های جدید استدلالی، قدرت مدل‌های محلی را به سطح جدیدی رساندند. این تحول به معنای گذار از مدل‌های «جعبه سیاه» به…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

رمزگشایی از Join the chat: وقتی آمازون فروشنده را با صدا جایگزین می‌کند

آمازون با معرفی قابلیت Join the chat، تجربه خرید را از جستجوی متنی به گفتگوهای صوتی زنده تبدیل کرده است. این ابزار با ترکیب مشخصات فنی و نظرات کاربران، نقش یک کارشناس فروش مجازی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

دگرگونی در تحلیل چندوجهی: Nemotron 3 و رکورد ۹ برابری سرعت در پردازش ویدئو

انویدیا با معرفی Nemotron 3 Nano Omni، استانداردهای تحلیل اسناد و ویدئو را جابه‌جا کرد. این مدل با معماری ترکیبی، کارایی را در پردازش‌های پیچیده تا ۹ برابر افزایش داده است.

۳ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

۷۰ میلی‌ثانیه تا انسانیت: Mistral چگونه ElevenLabs را به چالش کشید؟

شرکت Mistral AI مدل Voxtral TTS را معرفی کرد؛ یک مدل ۴ میلیارد پارامتری که در طبیعی بودن صدا، ElevenLabs را شکست می‌دهد. این مدل با تأخیر بسیار کم و قابلیت تطبیق سریع صدا،…

۳ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

چرا اشتراک‌های ابری ویدئویی شما تا اواخر ۲۰۲۵ بی‌فایده می‌شوند

تولید ویدئو با هوش مصنوعی از ابر به دسکتاپ نقل مکان کرده است. مدل‌های جدیدی مانند HunyuanVideo کیفیت تجاری را روی سخت‌افزارهای مصرف‌کننده ممکن کرده‌اند و نیاز به اشتراک‌های…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

مایکروسافت با معرفی VibeVoice، عصر خرد کردن فایل‌های صوتی را به پایان رساند. این چارچوب قادر است فایل‌های ۶۰ دقیقه‌ای را در یک مرحله پردازش کند و انسجام لحن گوینده را در بازه‌های…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چگونه Ask YouTube نتایج جستجو را به یک گفتگو تبدیل می‌کند

گوگل در حال آزمایش Ask YouTube است؛ قابلیتی که لیست‌های سنتی جستجو را با یک رابط گفتگوی مبتنی بر هوش مصنوعی جایگزین می‌کند. این ابزار نتایج را به صورت ترکیبی از متن و ویدیو ارائه…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

Qwen3-VL: عبور از توصیف ساده به استدلال بصری عمیق

سری مدل‌های جدید Qwen3-VL با معرفی معماری‌های DeepStack و MRope، استانداردهای درک ویدیو را تغییر دادند. این مدل‌ها با استفاده از همراستاسازی متنی، دقت خیره‌کننده‌ای در شناسایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

تزریق ویژگی‌های لایه‌ای: رمز پیروزی MOSS-Audio بر مدل‌های حجیم

پلتفرم OpenMOSS با معرفی MOSS-Audio، مرزهای تحلیل صوتی را جابه‌جا کرد. این مدل بنیادی با معماری نوآورانه، توانسته است در نسخه‌ی ۸ میلیاردی خود، مدل‌های ۳۰ میلیاردی را در دقت تحلیل…

۳ دقیقه خواندن