پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

شایعات اپل ۲۰۲۷: ایرپاد با دوربین برای هوش مصنوعی و آیفون تاشوی دوم
اخبار کوتاه روزانهگزارش تأییدنشده

درون نقشه راه ۲۰۲۷ اپل: ایرپادهایی که دنیا را می‌بینند

اپل در حال توسعه ایرپادهای دوربین‌دار است تا به سیری بینش بصری لحظه‌ای ببخشد. این سخت‌افزار به‌عنوان پلی برای ورود به بازار عینک‌های هوشمند و در کنار آن، نسل دوم آیفون تاشو طراحی…

۲ دقیقه خواندن
چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

پژوهشگران چارچوب VinQA را برای ارزیابی توانایی مدل‌های هوش مصنوعی در استناد دقیق به عناصر بصری (جداول و نمودارها) در پاسخ‌های طولانی معرفی کردند. نتایج نشان می‌دهد تنظیم دقیق…

۲ دقیقه خواندن
چرا استفاده از ابزار بصری دقت ارزیابی کیفیت تصاویر را جهش داد؟

چرا استفاده از ابزار بصری دقت ارزیابی کیفیت تصاویر را جهش داد؟

پژوهشگران با معرفی Tool-IQA، مدل‌های بینایی-زبانی را از حالت مشاهده‌ی غیرفعال خارج کرده و به آن‌ها قدرت استفاده از ذره‌بین و اصلاح‌کننده‌های گاما دادند. این رویکرد عامل‌محور، دقت…

۲ دقیقه خواندن
PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

PAL-Bench: چرا عامل‌های هوش مصنوعی در بازسازی هویت‌های تکرارشونده ناکام

پژوهشگران با معرفی PAL-Bench نشان دادند که مدل‌های هوش مصنوعی علیرغم توانایی در خلاصه‌سازی، در پیوند دادن هویت‌های تکرارشونده در داده‌های بلندمدت ناتوان‌اند. این شکاف، تفاوت…

۲ دقیقه خواندن۱
چرا دقت بازسازی در حسگرها معیار فریبنده‌ای برای نمایش واقعیت است؟

چرا دقت بازسازی در حسگرها معیار فریبنده‌ای برای نمایش واقعیت است؟

پژوهشگران چارچوب OQ-TSAE را معرفی کرده‌اند تا نمایش‌های هوش مصنوعی را راستی‌آزمایی کنند تا تنها تمایزات موردپشتی سخت‌افزاری را حفظ کنند. این سیستم با استفاده از «خارج‌قسمت‌های…

۱ دقیقه خواندن
TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

TimeVista: جایگزین کردن معیارهای عددی با مدل‌های بینایی-زبانی در ارزیابی

پژوهشگران چارچوب TimeVista را معرفی کرده‌اند که با بهره‌گیری از مدل‌های بینایی-زبانی (VLMs)، پیش‌بینی‌های سری‌های زمانی را از طریق تحلیل نمودارها ارزیابی می‌کند. این رویکرد در…

۱ دقیقه خواندن
چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

چگونه تفکر مبنی‌ساز، توانایی استدلالی Gemma3-4B را به سطح مدل ۲۷ میلیارد

محققان با معرفی روش «تفکر مبنی‌ساز»، مدل‌های کوچک را قادر ساختند تا گام‌های استدلالی خود را به نقاط دقیق تصویر متصل کنند. این رویکرد باعث شد مدل Gemma3-4B-IT در استدلال‌های مکانی،…

۲ دقیقه خواندن۱