
پایان کابوس تغییر چهره: HappyHorse 1.0 چگونه پایداری بصری را ممکن کرد؟
علیبابا دسترسی عمومی به API مدل HappyHorse 1.0 را آغاز کرد تا تولید ویدیوهای صنعتی را متحول کند. این سیستم با ارائه چهار نقطه اتصال تخصصی، مشکل قدیمی «تغییر چهره» در ویدیوهای…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

علیبابا دسترسی عمومی به API مدل HappyHorse 1.0 را آغاز کرد تا تولید ویدیوهای صنعتی را متحول کند. این سیستم با ارائه چهار نقطه اتصال تخصصی، مشکل قدیمی «تغییر چهره» در ویدیوهای…

متا با معرفی Sapiens2، استانداردهای بینایی ماشین را جابهجا کرد. این مدل بنیادی با آموزش روی ۱ میلیارد تصویر، پیچیدهترین حالتهای بدن انسان را با دقت ۴K بازسازی میکند.

شرکت Cohere ابزار Transcribe را برای تبدیل دقیق صدا به متن در محیطهای پر سر و صدا معرفی کرد. این سیستم با پشتیبانی از وزنهای باز و استقرار محلی، امنیت دادههای سازمانی را در ۱۴…

مدل جدید xAI با نام grok-voice-think-fast-1.0 با حذف تأخیرهای مکالمهای، رقبای خود یعنی Gemini و GPT را در بنچمارکهای صوتی شکست داد. این سیستم هماکنون در پشتیبانی مشتریان…

بنیاد LightSeek با معرفی SMG، گلوگاههای پایتون را حذف و پردازشهای سنگین را به زبان Rust منتقل کرد. این تغییر معماری باعث شد سرعت استنتاج مدل Llama-3.3 تا ۳.۵ برابر افزایش یابد.

گوگل در حال جایگزینی دستیار صوتی قدیمی خود با Gemini در خودروهای مجهز به Google built-in است. این تغییر، تعامل با خودرو را از دستورات ساده به گفتگوهای پیچیده و هوشمند تبدیل میکند…

یک توسعهدهنده طی ۱۸ ماه، موتور کامل ترنسفورمر را از صفر با زبان C بازنویسی کرد. TRiP امکان آموزش و استنتاج مدلهایی مثل Llama 2 را بدون نیاز به پایتون یا فریمورکهای سنگین فراهم…

مدل X-WAM با معرفی روش نمونهبرداری نویز نامتقارن، توانسته است سنتز ۴ بعدی با کیفیت بالا را با اجرای لحظهای دستورات رباتیک ترکیب کند. این پیشرفت به معنای پایان دوران توقف رباتها…

پژوهشگران ابزاری برای شناسایی همبستگیهای کاذب در مجموعهدادههای صوتی معرفی کردهاند که باعث تورم مصنوعی معیارهای موفقیت میشود. این ابزار مانع از آن میشود که مدلهای AI به جای…

ابزار جدید ATLAS با ترکیب دادههای بصری و سیگنالهای داخلی ربات، خطای مرزی در تقطیع عملیات را ۵ برابر کاهش داد. این پیشرفت، مسیر یادگیری وظایف پیچیده و طولانیمدت را برای رباتها…

معرفی چارچوب EnterpriseDocBench نشان میدهد سیستمهای تحلیل اسناد علیرغم دقت بالا، در ارائه پاسخهای جامع شکست میخورند. این مطالعه همچنین برتری بازیابی ترکیبی بر بردارهای معنایی…

پژوهشگران مجموعهداده عظیم و چندوجهی CheXthought را معرفی کردند که مسیر تفکر و نقاط تمرکز رادیولوژیستها را ثبت کرده است. این ابزار با آموزش مدلها برای «دیدن» مانند انسان، توهمات…