موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

شایعات اپل ۲۰۲۷: ایرپاد با دوربین برای هوش مصنوعی و آیفون تاشوی دوم

اخبار کوتاه روزانه۲ هفته پیشگزارش تأییدنشده

درون نقشه راه ۲۰۲۷ اپل: ایرپادهایی که دنیا را می‌بینند

اپل در حال توسعه ایرپادهای دوربین‌دار است تا به سیری بینش بصری لحظه‌ای ببخشد. این سخت‌افزار به‌عنوان پلی برای ورود به بازار عینک‌های هوشمند و در کنار آن، نسل دوم آیفون تاشو طراحی…

۲ دقیقه خواندن

کوالکام از چیپ Snapdragon Reality Elite برای هدست‌های واقعیت افزوده نسل بعدی رونمایی کرد

اخبار کوتاه روزانه۲ هفته پیش

۲ ویژگی کلیدی تراشه جدید کوالکام برای بهینه‌سازی عینک‌های AR

کوالکام با معرفی پردازنده Snapdragon Reality Elite، قدرت پردازش هوش مصنوعی در عینک‌های AR را ۱۶۰٪ افزایش داد. این تراشه که در عینک‌های Aura به کار می‌رود، هدفش حذف قطعات اضافی و…

۳ دقیقه خواندن

اندروید ۱۷ با ابزارهای چندوظیفگی جدید عرضه شد؛ گوگل قابلیت‌های جمینی را گسترش می‌دهد

اخبار کوتاه روزانه۲ هفته پیش

گوگل Gemini Omni و Lyria ۳ را در اندروید ۱۷ ادغام کرد

گوگل با انتشار اندروید ۱۷ و Wear OS 7، مدل‌های هوش مصنوعی Gemini Omni و Lyria 3 را مستقیماً در سیستم‌عامل ادغام کرد. این به‌روزرسانی با تمرکز بر تولید محتوای چندوجهی در دستگاه،…

۳ دقیقه خواندن

عینک واقعیت ترکیبی Xreal Air 2 Ultra با سیستم عامل اندروید XR رونمایی شد؛ قیمت اعلام نشد

اخبار کوتاه روزانه۲ هفته پیش

Xreal عینک Aura را با پلتفرم Android XR گوگل عرضه کرد

شرکت Xreal عینک Aura را به عنوان نخستین سخت‌افزار مجهز به پلتفرم Android XR گوگل معرفی کرد. با وجود باز شدن درهای رزرو پولی، قیمت نهایی محصول هنوز نامعلوم است.

۲ دقیقه خواندن

بررسی Insta360 Luna Ultra: نبرد دوربین‌های گیمبال آغاز می‌شود

اخبار کوتاه روزانه۲ هفته پیش

Luna Ultra در برابر DJI Pocket: نبرد کیفیت ۸K و زوم اپتیکال

شرکت Insta360 با معرفی دوربین Luna Ultra، بازار دوربین‌های گیمبال‌دار را تکان داد. این محصول با ارائه زوم اپتیکال ۳ بر own و کیفیت ۸K، مستقیماً رقیب مدل‌های جی‌دی‌آی است.

۶ دقیقه خواندن

چرا مدل‌های زبانی برای شناسایی جعل عمیق صوتی به شواهد فنی نیاز دارند؟

تحلیل و بررسی تخصصی۲ هفته پیش

درون چارچوب training-free برای تحلیل دقیق‌تر جعل‌های صوتی

پژوهشگران چارچوبی بدون نیاز به آموزش (training-free) طراحی کرده‌اند که با ترکیب هوش مصنوعی قابل‌توضیح (XAI) و مدل‌های چندوجهی، دقت تشخیص جعل عمیق صوتی را ۴۵٪ افزایش می‌دهد. این…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

پژوهشگران چارچوب VinQA را برای ارزیابی توانایی مدل‌های هوش مصنوعی در استناد دقیق به عناصر بصری (جداول و نمودارها) در پاسخ‌های طولانی معرفی کردند. نتایج نشان می‌دهد تنظیم دقیق…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا استفاده از ابزار بصری دقت ارزیابی کیفیت تصاویر را جهش داد؟

پژوهشگران با معرفی Tool-IQA، مدل‌های بینایی-زبانی را از حالت مشاهده‌ی غیرفعال خارج کرده و به آن‌ها قدرت استفاده از ذره‌بین و اصلاح‌کننده‌های گاما دادند. این رویکرد عامل‌محور، دقت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

پژوهشگران با معرفی PAL-Bench نشان دادند که مدل‌های هوش مصنوعی علیرغم توانایی در خلاصه‌سازی، در پیوند دادن هویت‌های تکرارشونده در داده‌های بلندمدت ناتوان‌اند. این شکاف، تفاوت…

۲ دقیقه خواندن۱

تحلیل و بررسی تخصصی۲ هفته پیش

چرا دقت بازسازی در حسگرها معیار فریبنده‌ای برای نمایش واقعیت است؟

پژوهشگران چارچوب OQ-TSAE را معرفی کرده‌اند تا نمایش‌های هوش مصنوعی را راستی‌آزمایی کنند تا تنها تمایزات موردپشتی سخت‌افزاری را حفظ کنند. این سیستم با استفاده از «خارج‌قسمت‌های…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

پژوهشگران چارچوب TimeVista را معرفی کرده‌اند که با بهره‌گیری از مدل‌های بینایی-زبانی (VLMs)، پیش‌بینی‌های سری‌های زمانی را از طریق تحلیل نمودارها ارزیابی می‌کند. این رویکرد در…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

محققان با معرفی روش «تفکر مبنی‌ساز»، مدل‌های کوچک را قادر ساختند تا گام‌های استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلال‌های مکانی،…

۲ دقیقه خواندن۱