موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

پایان کابوس تغییر چهره: HappyHorse 1.0 چگونه پایداری بصری را ممکن کرد؟

علی‌بابا دسترسی عمومی به API مدل HappyHorse 1.0 را آغاز کرد تا تولید ویدیوهای صنعتی را متحول کند. این سیستم با ارائه چهار نقطه اتصال تخصصی، مشکل قدیمی «تغییر چهره» در ویدیوهای…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان عصر توهمات بصری: متا چگونه دید ماشین را به دقت ۴K رساند؟

متا با معرفی Sapiens2، استانداردهای بینایی ماشین را جابه‌جا کرد. این مدل بنیادی با آموزش روی ۱ میلیارد تصویر، پیچیده‌ترین حالت‌های بدن انسان را با دقت ۴K بازسازی می‌کند.

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرا داده‌های صوتی شرکت شما بدون Transcribe یک معدن متروکه است؟

شرکت Cohere ابزار Transcribe را برای تبدیل دقیق صدا به متن در محیط‌های پر سر و صدا معرفی کرد. این سیستم با پشتیبانی از وزن‌های باز و استقرار محلی، امنیت داده‌های سازمانی را در ۱۴…

۳ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

گروک در برابر سکوت: چگونه xAI تأخیر استدلال صوتی را حذف کرد؟

مدل جدید xAI با نام grok-voice-think-fast-1.0 با حذف تأخیرهای مکالمه‌ای، رقبای خود یعنی Gemini و GPT را در بنچمارک‌های صوتی شکست داد. این سیستم هم‌اکنون در پشتیبانی مشتریان…

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

راز افزایش ۳.۵ برابری سرعت Llama-3.3 در لایه‌ی Rust

بنیاد LightSeek با معرفی SMG، گلوگاه‌های پایتون را حذف و پردازش‌های سنگین را به زبان Rust منتقل کرد. این تغییر معماری باعث شد سرعت استنتاج مدل Llama-3.3 تا ۳.۵ برابر افزایش یابد.

۳ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرخش راهبردی گوگل: Gemini چگونه جایگزین دستیار صوتی در میلیون‌ها خودرو می‌شود؟

گوگل در حال جایگزینی دستیار صوتی قدیمی خود با Gemini در خودروهای مجهز به Google built-in است. این تغییر، تعامل با خودرو را از دستورات ساده به گفتگوهای پیچیده و هوشمند تبدیل می‌کند…

۲ دقیقه خواندن

آموزش کاربردی۲ ماه پیش

چرا TRiP برای ساخت موتور ترنسفورمر، پایتون را به کل کنار گذاشت؟

یک توسعه‌دهنده طی ۱۸ ماه، موتور کامل ترنسفورمر را از صفر با زبان C بازنویسی کرد. TRiP امکان آموزش و استنتاج مدل‌هایی مثل Llama 2 را بدون نیاز به پایتون یا فریم‌ورک‌های سنگین فراهم…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

تکنیک ANS: چگونه X-WAM سرعت استنتاج رباتیک را متحول کرد

مدل X-WAM با معرفی روش نمونه‌برداری نویز نامتقارن، توانسته است سنتز ۴ بعدی با کیفیت بالا را با اجرای لحظه‌ای دستورات رباتیک ترکیب کند. این پیشرفت به معنای پایان دوران توقف ربات‌ها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

سراب عملکرد: چرا دقت بالای مدل‌های صوتی در پزشکی یک توهم خطرناک است

پژوهشگران ابزاری برای شناسایی همبستگی‌های کاذب در مجموعه‌داده‌های صوتی معرفی کرده‌اند که باعث تورم مصنوعی معیارهای موفقیت می‌شود. این ابزار مانع از آن می‌شود که مدل‌های AI به جای…

۲ دقیقه خواندن

اخبار کوتاه روزانه۲ ماه پیش

پایان کابوس دقت در رباتیک: ATLAS چگونه مرزهای عملیاتی را بازتعریف کرد

ابزار جدید ATLAS با ترکیب داده‌های بصری و سیگنال‌های داخلی ربات، خطای مرزی در تقطیع عملیات را ۵ برابر کاهش داد. این پیشرفت، مسیر یادگیری وظایف پیچیده و طولانی‌مدت را برای ربات‌ها…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چرا دقت ۸۵ درصدی در تحلیل اسناد، تضمین‌کننده‌ی پاسخ کامل نیست؟

معرفی چارچوب EnterpriseDocBench نشان می‌دهد سیستم‌های تحلیل اسناد علی‌رغم دقت بالا، در ارائه پاسخ‌های جامع شکست می‌خورند. این مطالعه همچنین برتری بازیابی ترکیبی بر بردارهای معنایی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

CheXthought: ۶ میلیون نقطه توجه بصری برای پایان دادن به توهمات پزشکی

پژوهشگران مجموعه‌داده عظیم و چندوجهی CheXthought را معرفی کردند که مسیر تفکر و نقاط تمرکز رادیولوژیست‌ها را ثبت کرده است. این ابزار با آموزش مدل‌ها برای «دیدن» مانند انسان، توهمات…

۲ دقیقه خواندن