موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

سیستم OCR نامحدود بایدو: عصر تحلیل یک‌مرحله‌ای متون بلند

مدل Unlimited-OCR با پردازش یک‌مرحله‌ای، محدودیت تکه‌بندی اسناد طولانی را حذف

شرکت بایدو مدل Unlimited-OCR را برای تحلیل اسناد چندصفحه‌ای در یک مرحله (One-shot) معرفی کرد. این سیستم با حذف نیاز به تکه‌بندی متن، انسجام ساختاری اسناد پیچیده را در خروجی‌های…

۳ دقیقه خواندن

تحول مدیریت زنجیره تأمین با مدل‌های زبانی بزرگ

آموزش کاربردی۵ روز پیش

آیا قیمت‌گذاری ثابت می‌تواند جایگزین مدل توکن‌محور در زنجیره تأمین شود؟

پلتفرم Oxlo.ai با جایگزینی مدل توکن‌محور با قیمت‌گذاری ثابت به‌ازای هر درخواست، مانع مالی پردازش اسناد حجیم در لجستیک را حذف کرد. این سرویس با ادغام در OpenAI SDK، امکان استقرار…

۴ دقیقه خواندن

بررسی عینک ری-بن متا: طراحی بهتر با قیمت بالاتر

زندگی با AI۵ روز پیش

آیا قیمت بالا و حریم خصوصی مانع پذیرش عینک‌های AI متا می‌شود؟

متا و اسیلورلوکسوتیکا خط تولید Optics را برای ادغام هوش مصنوعی در عینک‌های طبی عرضه کردند. با وجود بهبودهای ارگونومیک و پاسخ‌دهی AI، قیمت بالا و نگرانی‌های حریم خصوصی همچنان موانع…

۹ دقیقه خواندن

جریان کاری تولید موزیک ویدیوی هوش مصنوعی از فایل صوتی

آموزش کاربردی۵ روز پیش

Echonos تولید موزیک‌ویدیوهای عمودی را از طریق تحلیل انرژی صوت خودکار کرد

پلتفرم Echonos با استفاده از یک خط لوله هوش مصنوعی، فایل‌های صوتی را مستقیماً به ویدیوهای عمودی با کیفیت 2K تبدیل می‌کند. این ابزار با همگام‌سازی بصری بر اساس پروفایل انرژی…

۶ دقیقه خواندن

ویدو کیو۳، مدل چندوجهی برای تولید ویدیو از متن و تصویر، روی ابر هوآوی راه‌اندازی شد

اخبار کوتاه روزانه۵ روز پیشتأییدنشده · منبع منفرد

«تداوم بصری در ویدیو»؛ قابلیت کلیدی Vidu Q3 در پلتفرم هواوی کلاود

مدل Vidu Q3 از شرکت Shengshu Technology اکنون روی پلتفرم MaaS هواوی کلاود در دسترس است. این ابزار با تمرکز بر تداوم بصری، تولید سریال‌های کوتاه و تیزرهای تجاری را به سطح صنعتی…

۲ دقیقه خواندن

گوگل: پشتیبانی Gemini 3.5 از ترجمه هم‌زمان صوتی برای ۷۰ زبان

اخبار کوتاه روزانه۶ روز پیش

«رابط پیش‌فرض جدید»، گام گوگل برای ارتقای توانمندی عامل‌های Gemini

گوگل دیپ‌مایند رابط Interactions API را جایگزین سامانه قدیمی generateContent کرد تا قابلیت‌های پیشرفته‌ای مثل محیط‌های ایزوله لینوکس و زنجیره‌سازی ابزارها را به عامل‌های هوش…

۱ دقیقه خواندن

آمازون الکسا پلاس را با پشتیبانی از زبان هندی در هند آزمایش می‌کند

اخبار کوتاه روزانه۶ روز پیش

بازار هند: پشتیبانی Alexa+ از زبان‌های ترکیبی برای جذب کاربران بومی

آمازون دسترسی بتای دستیار هوشمند Alexa+ را برای کاربران هندی باز کرد. هدف این اقدام، جذب میلیون‌ها کاربر native است که در گفتگوهای روزمره از ترکیب زبان‌های هندی و انگلیسی استفاده…

۲ دقیقه خواندن

همکاری گوگل دیپ‌مایند و A24 برای پژوهش در سینمای هوش مصنوعی

اخبار کوتاه روزانه۶ روز پیش

سرمایه‌گذاری ۷۵ میلیون دلاری گوگل دیپ‌مایند در استودیوی A24

گوگل دیپ‌مایند با سرمایه‌گذاری ۷۵ میلیون دلاری در استودیو A24، مسیر خود را از تولید ویدیوهای عمومی به سمت ابزارهای تخصصی تولید فیلم تغییر داد. هدف این همکاری، دریافت بازخوردهای…

۱ دقیقه خواندن

شماره ۳۶ خبرنامه هوش مصنوعی فیزیکی FutureX — ۲۳ ژوئن

اخبار کوتاه روزانه۶ روز پیش

سامانه Halos انویدیا: لایه‌ی ایمنی سخت‌افزاری و نرم‌افزاری برای روبوتاکسی‌ها

انویدیا با معرفی Halos، استانداردهای ایمنی خودرویی را به رباتیک صنعتی آورد تا استقرار انبوه ربات‌های انسان‌نما در کارخانه‌ها ممکن شود. این اقدام هم‌زمان با جذب سرمایه‌های کلان در…

۱۴ دقیقه خواندن

تحلیل و بررسی تخصصی۶ روز پیش

مدل Moebius با ۲ درصد پارامترها، کیفیت ترمیم تصاویر مدل‌های ۱۰ میلیارد‌تایی را

پژوهشگران مدل Moebius را معرفی کردند؛ چارچوبی سبک برای ترمیم تصویر (Inpainting) که با کمتر از ۲٪ پارامترهای مدل‌های غول‌آسا، کیفیتی مشابه آن‌ها ارائه می‌دهد. این مدل با دستیابی به…

۳ دقیقه خواندن

PP-OCRv6 در Hugging Face: OCR ۵۰ زبان با پارامتر از ۱.۵ تا ۳۴.۵ میلیون

آموزش کاربردی۶ روز پیش

دقت نویسه‌خوانی PP-OCRv6 در مدل‌های سبک ۵.۱ درصد افزایش یافت

خانواده مدل‌های جدید PP-OCRv6 راهکاری مقیاس‌پذیر برای نویسه‌خوانی نوری در ۵۰ زبان ارائه می‌دهد. این مدل‌ها با پارامترهایی بین ۱.۵ تا ۳۴.۵ میلیون، دقت تشخیص و بازشناسی متن را در…

۴ دقیقه خواندن

توافق اوپن‌ای‌ای و گتی ایمجز برای نمایش تصاویر در چت‌جی‌پی‌تی

اخبار کوتاه روزانه۶ روز پیش

«ادغام محتوای لایسنس‌دار»؛ تغییر استراتژی گتی ایمیجز در برابر OpenAI

گتی ایمیجز و OpenAI قراردادی چندساله برای ادغام کتابخانه‌های بصری رسمی در نتایج جست‌وجوی ChatGPT منعقد کردند. این چرخش استراتژیک توسط شرکتی رخ می‌دهد که پیش‌تر به دلیل نقض…

۲ دقیقه خواندن