پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

کاهش هزینه ارزیابی کالکشن‌ها به صفر؛ خط لوله هوش مصنوعی جایگزین چشم خبره می‌شود
آموزش کاربردی

کاهش هزینه ارزیابی کالکشن‌ها به صفر؛ خط لوله هوش مصنوعی جایگزین چشم خبره می‌شود

یک گردش‌کار جدید به معامله‌گران کالکشن اجازه می‌دهد درجه‌بندی اقلامی مثل کارت‌های بازی را با تحلیل تصویر خودکار کنند. این سیستم با زنجیره کردن APIهای پردازش تصویر، تخمین درجه و…

۵ دقیقه خواندن
چگونه FADA تحلیل تخصصی سونوگرافی جنین را به سخت‌افزار موبایل منتقل کرد؟

چگونه FADA تحلیل تخصصی سونوگرافی جنین را به سخت‌افزار موبایل منتقل کرد؟

مدل FADA با یکپارچه‌سازی تشخیص و تحلیل سونوگرافی جنین در یک خط لوله واحد، امکان تشخیص بالینی آفلاین را روی گوشی‌های هوشمند فراهم کرده است. این سیستم با هدف کاهش شکاف تشخیصی در…

۲ دقیقه خواندن
چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

پژوهش‌های جدید روی مدل‌های زبانی چندوجهی نشان می‌دهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا می‌برد، باعث افت عملکرد در وظایف استدلالی دقیق می‌شود. این مطالعه همچنین…

۱ دقیقه خواندن
ImageTime: اندازه‌گیری نرخ شکست مدل‌های تولید تصویر در منطق زمانی-مکانی

ImageTime: اندازه‌گیری نرخ شکست مدل‌های تولید تصویر در منطق زمانی-مکانی

بنچمارک جدیدی به نام ImageTime توانایی مدل‌های تولید تصویر را در حفظ سازگاری بصری و علّی در توالی‌های زمانی چهار مرحله‌ای می‌سنجد. این ارزیابی با استفاده از GPT-5.5 به‌عنوان داور،…

۲ دقیقه خواندن
بهبود انتقال‌پذیری حملات تخاصمی در مدل‌های پیش‌آموزش بینایی-زبان با اصلاح سوگیری خاص جانشین

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

پژوهشگران با معرفی روش DeBias-Attack، اثربخشی نمونه‌های تقابلی را در مدل‌های پیش‌آموزش‌دیده بصری-زبانی (VLP) افزایش دادند. این متد با حذف سوگیری‌های خاصِ مدل‌های جایگزین،…

۲ دقیقه خواندن
چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

پژوهشگران چارچوب EDITH را معرفی کردند که با تلفیق نگاه کاربر، نمای اول‌شخص و گفتار، تعامل انسان و ربات را بهینه‌تر می‌کند. این سیستم با تبدیل سیگنال‌های نویزی به زیر-وظایف، نیاز…

۲ دقیقه خواندن
چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدل‌های زبانی را برای تولید کدهای دقیق‌تر در نمودارها و رابط‌های کاربری آموزش می‌دهد. این روش با هدف قرار دادن…

۲ دقیقه خواندن