موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

کاهش هزینه ارزیابی کالکشن‌ها به صفر؛ خط لوله هوش مصنوعی جایگزین چشم خبره می‌شود

یک گردش‌کار جدید به معامله‌گران کالکشن اجازه می‌دهد درجه‌بندی اقلامی مثل کارت‌های بازی را با تحلیل تصویر خودکار کنند. این سیستم با زنجیره کردن APIهای پردازش تصویر، تخمین درجه و…

۵ دقیقه خواندن

ژوئن ۲۰۲۶ شلوغ: Claude Fable 5، MiniMax M3، OpenAI Spud و ۲۵ مدل جدید

اخبار کوتاه روزانه۲ هفته پیش

۲۵ مدل هوش مصنوعی در یک هفته: عصر تخصص و وزن‌های باز

موج گسترده انتشار مدل‌ها در ژوئن ۲۰۲۶، از Claude Fable 5 تا MiniMax M3، نشان‌دهنده چرخش صنعت به سمت تخصص و تسلط مدل‌های وزن‌باز است. این روند با افشای جزئیات مدل عامل‌محور Spud از…

۲ دقیقه خواندن

شبیه‌سازی ساعت‌ها رانندگی واقع‌گرایانه با مدل جهانی جدید دکارت

اخبار کوتاه روزانه۲ هفته پیش

مدل Oasis 3: شبیه‌سازی رانندگی خودران با قیمت ۰.۰۲ دلار در ثانیه

استارتاپ Decart مدل دنیای Oasis 3 را برای تست خودروهای خودران معرفی کرد. این مدل هزینه‌ی شبیه‌سازی را به شدت کاهش داده است، اما هنوز با مشکلاتی نظیر زوال بصری و عدم رعایت دقیق…

۵ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چگونه FADA تحلیل تخصصی سونوگرافی جنین را به سخت‌افزار موبایل منتقل کرد؟

مدل FADA با یکپارچه‌سازی تشخیص و تحلیل سونوگرافی جنین در یک خط لوله واحد، امکان تشخیص بالینی آفلاین را روی گوشی‌های هوشمند فراهم کرده است. این سیستم با هدف کاهش شکاف تشخیصی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

چرا شخصیت‌بخشی در مدل‌های چندوجهی، دقت استدلال بصری را کاهش می‌دهد؟

پژوهش‌های جدید روی مدل‌های زبانی چندوجهی نشان می‌دهد که القای شخصیت در حالی که کیفیت توصیف تصاویر را بالا می‌برد، باعث افت عملکرد در وظایف استدلالی دقیق می‌شود. این مطالعه همچنین…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

بنچمارک جدید PhysTool-Bench نشان می‌دهد پیشرفته‌ترین مدل‌های چندوجهی در عبور از فراخوانی APIهای دیجیتال به مدیریت ابزارهای فیزیکی شکست می‌خورند. حتی مدل Gemini-3.1-Pro به دلیل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

رمزگشایی از Spatial-Omni: تزریق درک سه‌بعدی صدا به مدل‌های زبانی

معرفی روش Spatial-Omni برای ادغام صدای فضایی در مدل‌های زبانی چندوجهی. این سیستم با استفاده از کدگذاری FOA، بدون نیاز به تغییر در رمزگذارهای صوتی اولیه، دقت مکان‌یابی صدا و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

UniDexTok: کاهش ۹۹ درصدی خطای بازسازی در دست‌های رباتیک متنوع

توکنایزر جدیدی به نام UniDexTok وضعیت دست‌های انسان و ربات‌های مختلف را به یک رابط مشترک با ۲۲ درجه آزادی منتقل می‌کند. این فناوری نیاز به بازنگری دستی (retargeting) را حذف کرده و…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۲ هفته پیش

ImageTime: اندازه‌گیری نرخ شکست مدل‌های تولید تصویر در منطق زمانی-مکانی

بنچمارک جدیدی به نام ImageTime توانایی مدل‌های تولید تصویر را در حفظ سازگاری بصری و علّی در توالی‌های زمانی چهار مرحله‌ای می‌سنجد. این ارزیابی با استفاده از GPT-5.5 به‌عنوان داور،…

۲ دقیقه خواندن

بهبود انتقال‌پذیری حملات تخاصمی در مدل‌های پیش‌آموزش بینایی-زبان با اصلاح سوگیری خاص جانشین

تحلیل و بررسی تخصصی۲ هفته پیش

چرا حذف سوگیری‌های مدل جایگزین، سد دفاعی مدل‌های VLP را می‌شکند؟

پژوهشگران با معرفی روش DeBias-Attack، اثربخشی نمونه‌های تقابلی را در مدل‌های پیش‌آموزش‌دیده بصری-زبانی (VLP) افزایش دادند. این متد با حذف سوگیری‌های خاصِ مدل‌های جایگزین،…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

پژوهشگران چارچوب EDITH را معرفی کردند که با تلفیق نگاه کاربر، نمای اول‌شخص و گفتار، تعامل انسان و ربات را بهینه‌تر می‌کند. این سیستم با تبدیل سیگنال‌های نویزی به زیر-وظایف، نیاز…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا Visual-SDPO در اصلاح خطاهای بصری کدنویسی، GRPO را شکست می‌دهد؟

چارچوب جدید Visual-SDPO با استفاده از بازخوردهای بصری رندر شده، مدل‌های زبانی را برای تولید کدهای دقیق‌تر در نمودارها و رابط‌های کاربری آموزش می‌دهد. این روش با هدف قرار دادن…

۲ دقیقه خواندن