پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

دستیابی به دقت ۹۸ درصدی در طبقه‌بندی عیوب STEM با مدل‌های زمینه‌آگاه

دستیابی به دقت ۹۸ درصدی در طبقه‌بندی عیوب STEM با مدل‌های زمینه‌آگاه

یک چارچوب جدید یادگیری عمیق با ادغام داده‌های تصویری و متادیتای تجربی، مشکل ابهام کنتراست در میکروسکوپ‌های الکترونی را حل کرده است. این سیستم در طبقه‌بندی عیوب تصویربرداری با…

۱ دقیقه خواندن
توت‌فرنگی عجیب با شکلی شبیه شکم باردار

«شستشوی زیبایی‌شناختی»؛ سازوکاری برای دور زدن فیلترهای ایمنی در درام‌های میوه‌ای

یک تحلیل آکادمیک نشان می‌دهد درام‌های کوتاه تولیدشده توسط هوش مصنوعی، از زیبایی‌شناسی «بانمک» برای پنهان کردن کلیشه‌های جنسیتی و نژادی استفاده می‌کنند. این متد که «شستشوی…

۱ دقیقه خواندن
مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

مدل جدید CT-VAM با استفاده از معماری الهام‌گرفته از سیستم عصبی انسان، موفق شد با ۶۸ میلیون پارامتر، عملکرد مدل‌های عظیم بینایی-زبانی-کنشی (VLA) را در کنترل ربات‌ها بازتولید کند.…

۱ دقیقه خواندن
LargeMonitor: گذار از معیارهای متصل به آموزش به ناظران چندوجهی در یادگیری مستمر

LargeMonitor: گذار از معیارهای متصل به آموزش به ناظران چندوجهی در یادگیری مستمر

پژوهشگران چارچوب LargeMonitor را معرفی کردند که با بهره‌گیری از مدل‌های بینایی و چندوجهی ثابت، رانش توزیع داده‌ها را در یادگیری مستمر بدون تکلیف تشخیص و تحلیل می‌کند. این سیستم…

۲ دقیقه خواندن
چگونه مدل‌های جهانی در تولید داده‌های رباتیک، «درب‌های پشتی» مخفی ایجاد می‌کنند؟

چگونه مدل‌های جهانی در تولید داده‌های رباتیک، «درب‌های پشتی» مخفی ایجاد می‌کنند؟

پژوهشگران نوع جدیدی از حمله مسموم‌سازی داده را شناس کرده‌اند که مدل‌های جهانی را هدف قرار می‌دهد. این حمله با تزریق محرک‌های پنهان به داده‌های به‌ ظاهر امن، ربات‌ها را مجبور به…

۱ دقیقه خواندن
چگونه معیار خود-سازگاری، قابلیت تشخیص نیت انسانی را به لبهٔ رایانش رباتیک آورد؟

چگونه معیار خود-سازگاری، قابلیت تشخیص نیت انسانی را به لبهٔ رایانش رباتیک آورد؟

پژوهشگران سیستمی برای تشخیص نیت ارتباطی انسان از طریق ژست‌های بدن در سخت‌افزارهای ارزان‌قیمت توسعه داده‌اند. این فناوری با استفاده از یک معیار خود-سازگاری اتورگرسیو، می‌تواند…

۲ دقیقه خواندن
PhysScene: گذار از بازشناسی بصری به استدلال رابطه‌ای در آزمایشگاه‌های فیزیک

PhysScene: گذار از بازشناسی بصری به استدلال رابطه‌ای در آزمایشگاه‌های فیزیک

پژوهشگران مجموعه داده PhysScene را معرفی کردند؛ نخستین گراف صحنه تخصصی برای محیط‌های آزمایشگاهی فیزیک. هدف این پروژه تغییر تمرکز مدل‌ها از روابط مکانی ساده به وابستگی‌های عملکردی…

۱ دقیقه خواندن
بهبود ۶ درصدی تشخیص کم‌نمونه با رفع عدم‌توازن در پیشنهادهای ناحیه‌ای

بهبود ۶ درصدی تشخیص کم‌نمونه با رفع عدم‌توازن در پیشنهادهای ناحیه‌ای

یک رویکرد جدید در تشخیص اشیاء کم‌نمونه (FSOD) با اصلاح عدم‌توازن بین پیشنهادهای کلاس‌های پایه و جدید، دقت مدل‌ها را ۱ تا ۶ درصد افزایش داده است. این روش بدون ایجاد تأخیر در زمان…

۱ دقیقه خواندن
حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

پژوهشگران چارچوب EgoTactile را معرفی کردند که می‌تواند فشار گیرش دست را تنها از طریق ویدیوهای اول‌شخص تخمین بزند. این سیستم با استفاده از مدل‌های انتشار، نیاز به سخت‌افزارهای لمسی…

۱ دقیقه خواندن
چرا متد گرم‌بندی در مدل‌های بینایی-زبانی اثر نهایی RL را تغییر نمی‌دهد؟

چرا متد گرم‌بندی در مدل‌های بینایی-زبانی اثر نهایی RL را تغییر نمی‌دهد؟

یک مطالعه فنی روی مدل‌های بینایی-زبانی نشان می‌دهد که انتخاب بین SFT و OPD در مرحله گرم‌بندی، تنها بر رژیم آنتروپی اولیه اثر می‌گذارد و تأثیری بر عملکرد نهایی یادگیری تقویت‌شده…

۲ دقیقه خواندن
BareWave: حذف نمایش‌های آکوستیکی برای تولید مستقیم موج صوتی از متن

BareWave: حذف نمایش‌های آکوستیکی برای تولید مستقیم موج صوتی از متن

چارچوب BareWave با حذف نمایش‌های میانی و مراحل کدگشایی، امکان تولید مستقیم موج‌های صوتی را از روی متن فراهم می‌کند. این رویکرد پیچیدگی مسیر استنتاج را کاهش داده و در عین حال کیفیت…

۱ دقیقه خواندن