پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

سیستم OCR نامحدود بایدو: عصر تحلیل یک‌مرحله‌ای متون بلند
آموزش کاربردی

مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

شرکت بایدو مدل Unlimited-OCR را برای تحلیل اسناد چندصفحه‌ای در یک مرحله (One-shot) معرفی کرد. این سیستم با حذف نیاز به تکه‌بندی متن، انسجام ساختاری اسناد پیچیده را در خروجی‌های…

۳ دقیقه خواندن
تحول مدیریت زنجیره تأمین با مدل‌های زبانی بزرگ
آموزش کاربردی

آیا قیمت‌گذاری ثابت می‌تواند جایگزین مدل توکن‌محور در زنجیره تأمین شود؟

پلتفرم Oxlo.ai با جایگزینی مدل توکن‌محور با قیمت‌گذاری ثابت به‌ازای هر درخواست، مانع مالی پردازش اسناد حجیم در لجستیک را حذف کرد. این سرویس با ادغام در OpenAI SDK، امکان استقرار…

۴ دقیقه خواندن
جریان کاری تولید موزیک ویدیوی هوش مصنوعی از فایل صوتی
آموزش کاربردی

Echonos تولید موزیک‌ویدیوهای عمودی را از طریق تحلیل انرژی صوت خودکار کرد

پلتفرم Echonos با استفاده از یک خط لوله هوش مصنوعی، فایل‌های صوتی را مستقیماً به ویدیوهای عمودی با کیفیت 2K تبدیل می‌کند. این ابزار با همگام‌سازی بصری بر اساس پروفایل انرژی…

۶ دقیقه خواندن
ویدو کیو۳، مدل چندوجهی برای تولید ویدیو از متن و تصویر، روی ابر هوآوی راه‌اندازی شد
اخبار کوتاه روزانهتأییدنشده · منبع منفرد

«تداوم بصری در ویدیو»؛ قابلیت کلیدی Vidu Q3 در پلتفرم هواوی کلاود

مدل Vidu Q3 از شرکت Shengshu Technology اکنون روی پلتفرم MaaS هواوی کلاود در دسترس است. این ابزار با تمرکز بر تداوم بصری، تولید سریال‌های کوتاه و تیزرهای تجاری را به سطح صنعتی…

۲ دقیقه خواندن
آمازون الکسا پلاس را با پشتیبانی از زبان هندی در هند آزمایش می‌کند

بازار هند: پشتیبانی Alexa+ از زبان‌های ترکیبی برای جذب کاربران بومی

آمازون دسترسی بتای دستیار هوشمند Alexa+ را برای کاربران هندی باز کرد. هدف این اقدام، جذب میلیون‌ها کاربر native است که در گفتگوهای روزمره از ترکیب زبان‌های هندی و انگلیسی استفاده…

۲ دقیقه خواندن
همکاری گوگل دیپ‌مایند و A24 برای پژوهش در سینمای هوش مصنوعی

سرمایه‌گذاری ۷۵ میلیون دلاری گوگل دیپ‌مایند در استودیوی A24

گوگل دیپ‌مایند با سرمایه‌گذاری ۷۵ میلیون دلاری در استودیو A24، مسیر خود را از تولید ویدیوهای عمومی به سمت ابزارهای تخصصی تولید فیلم تغییر داد. هدف این همکاری، دریافت بازخوردهای…

۱ دقیقه خواندن
شماره ۳۶ خبرنامه هوش مصنوعی فیزیکی FutureX — ۲۳ ژوئن

سامانه Halos انویدیا: لایه‌ی ایمنی سخت‌افزاری و نرم‌افزاری برای روبوتاکسی‌ها

انویدیا با معرفی Halos، استانداردهای ایمنی خودرویی را به رباتیک صنعتی آورد تا استقرار انبوه ربات‌های انسان‌نما در کارخانه‌ها ممکن شود. این اقدام هم‌زمان با جذب سرمایه‌های کلان در…

۱۴ دقیقه خواندن
صفحه پروژه موبیوس

مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

پژوهشگران مدل Moebius را معرفی کردند؛ چارچوبی سبک برای ترمیم تصویر (Inpainting) که با کمتر از ۲٪ پارامترهای مدل‌های غول‌آسا، کیفیتی مشابه آن‌ها ارائه می‌دهد. این مدل با دستیابی به…

۳ دقیقه خواندن
توافق اوپن‌ای‌ای و گتی ایمجز برای نمایش تصاویر در چت‌جی‌پی‌تی

«ادغام محتوای لایسنس‌دار»؛ تغییر استراتژی گتی ایمیجز در برابر OpenAI

گتی ایمیجز و OpenAI قراردادی چندساله برای ادغام کتابخانه‌های بصری رسمی در نتایج جست‌وجوی ChatGPT منعقد کردند. این چرخش استراتژیک توسط شرکتی رخ می‌دهد که پیش‌تر به دلیل نقض…

۲ دقیقه خواندن