موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

چرا پشتیبانی از ۲۰۱ زبان در NVIDIA ACE هزینه بومی‌سازی بازی‌ها را حذف می‌کند؟

انویدیا ابزار ACE را برای پشتیبانی از شخصیت‌های هوش مصنوعی چندزبانه به‌روزرسانی کرد و DLSS 4.5 را برای موتور آنریل منتشر نمود. این تغییرات امکان ایجاد NPCهای گفتگو‌محور روی دستگاه…

۳ دقیقه خواندن

آموزش کاربردیماه گذشته

Reachy Mini و حذف APIهای ابری: استقرار محلی زنجیره کامل تبدیل گفتار به گفتار

ربات Reachy Mini اکنون می‌تواند تمام مراحل تبدیل گفتار به گفتار را به‌صورت محلی اجرا کند. این تغییر نیاز به سرورهای ابری و کلیدهای API را حذف کرده و حریم خصوصی کامل و هزینه صفر…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چرا یوتیوب سیستمِ داوطلبانه را کنار گذاشت تا ویدیوهای AI را خودکار شناسایی کند؟

یوتیوب سیستم اظهارات داوطلبانه سازندگان را کنار گذاشته و شناسایی خودکار ویدیوهای واقع‌گرایانه AI را جایگزین می‌کند. این پلتفرم اکنون با استفاده از سیگنال‌های داخلی و متادیتای…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

Music v2: تلاشی برای تبدیل موسیقی AI از یک ریسک حقوقی به دارایی تجاری

شرکت ElevenLabs مدل Music v2 را معرفی کرد که قابلیت تغییر ژانر در میانه‌ی یک آهنگ را دارد. این مدل برخلاف رقبا از داده‌های لایسنس‌شده استفاده می‌کند تا خروجی‌ها برای استفاده تجاری…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

استراتژی Human Archive برای تبدیل کارهای ساده در هند به داده‌های آموزشی ربات‌ها

استارتاپ Human Archive با جذب ۸.۲ میلیون دلار سرمایه، داده‌های حرکتی کارگران گیگ در هند را برای آموزش ربات‌ها جمع‌آوری می‌کند. این شرکت از سخت‌افزارهای تخصصی و مدل «تخفیف در خدمات…

۳ دقیقه خواندن

آموزش کاربردیماه گذشته

چگونه Open-MM-RL توهمات ریاضی در مدل‌های چندوجهی را حذف می‌کند؟

یک خط لوله (Pipeline) جدید برای آموزش مدل‌های بینایی-زبانی معرفی شده است که به جای تکیه بر حدس‌های هوش مصنوعی، از اثبات‌های ریاضی برای پاداش‌دهی استفاده می‌کند. این روش با ترکیب…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

Qwen3-ASR: کاهش نرخ خطای تبدیل صوت به متن از ۷.۴٪ به ۱.۸۴٪

نرم‌افزار Brethof Voice Pro 2.0 با استفاده از مدل‌های Qwen3-ASR و Hunyuan-MT2، امکان تبدیل و ترجمه صوت را به‌صورت کاملاً محلی فراهم کرد. این سیستم در بنچمارک‌ها از Whisper…

۲ دقیقه خواندن

آموزش کاربردیماه گذشته

بایت‌دنس: مدل ۳ میلیارد پارامتری Lance با امتیاز ۸۵.۱۱ در بنچمارک VBench

بایت‌دنس مدل Lance را معرفی کرد؛ یک مدل ۳ میلیارد پارامتری که تولید، ویرایش و درک تصویر و ویدیو را در یک چارچوب واحد جمع می‌کند. این مدل با بهره‌وری بالا، در بنچمارک‌های کلیدی…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

سازوکار Google Pics برای پایان دادن به دوران «پرامپت و دعا» در طراحی گرافیکی

گوگل در کنفرانس I/O ۲۰۲۶ اپلیکیشن **Pics** را معرفی کرد تا طراحی گرافیکی را مستقیماً به Workspace بیاورد. این ابزار با تمرکز بر ویرایش دقیق و مبتنی بر کامنت، مستقیماً با Canva و…

۲ دقیقه خواندن

سرگرمی و خلاقیتماه گذشته

Stability AI: تولید موسیقی ۶ دقیقه‌ای با وزن‌های باز و داده‌های قانونی

شرکت Stability AI مدل Stable Audio 3.0 را معرفی کرد که تولید موسیقی تا ۶ دقیقه را ممکن می‌کند. این مدل‌ها با داده‌های قانونی آموزش دیده‌اند و نسخه‌های وزن‌باز آن‌ها برای استفاده…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

چگونه ترکیب بینایی و صوت، تأخیر ترجمه در Qwen3.5 را به ۲.۸ ثانیه رساند؟

تیم Qwen در علی‌بابا با معرفی مدل Qwen3.5-LiveTranslate-Flash، تأخیر ترجمه هم‌زمان را به ۲.۸ ثانیه کاهش داد. این مدل با ترکیب داده‌های بصری و صوتی، کیفیت ترجمه را در محیط‌های شلوغ…

۲ دقیقه خواندن

اخبار کوتاه روزانهماه گذشته

گزارش SWE-bench: نرخ موفقیت Claude Code در حل مشکلات گیت‌هاب به ۸۷.۶٪ رسید

عامل‌های کدنویسی به نقطه عطف استقلال رسیده‌اند و Claude Code اکنون اکثریت مشکلات واقعی گیت‌هاب را حل می‌کند. هم‌زمان، صنعت به سمت عامل‌های «ماندگار در ابر» و مدل‌های یکپارچه برای…

۲ دقیقه خواندن