موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

دستیابی به دقت ۹۸ درصدی در طبقه‌بندی عیوب STEM با مدل‌های زمینه‌آگاه

یک چارچوب جدید یادگیری عمیق با ادغام داده‌های تصویری و متادیتای تجربی، مشکل ابهام کنتراست در میکروسکوپ‌های الکترونی را حل کرده است. این سیستم در طبقه‌بندی عیوب تصویربرداری با…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

«شستشوی زیبایی‌شناختی»؛ سازوکاری برای دور زدن فیلترهای ایمنی در درام‌های میوه‌ای

یک تحلیل آکادمیک نشان می‌دهد درام‌های کوتاه تولیدشده توسط هوش مصنوعی، از زیبایی‌شناسی «بانمک» برای پنهان کردن کلیشه‌های جنسیتی و نژادی استفاده می‌کنند. این متد که «شستشوی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

مدل جدید CT-VAM با استفاده از معماری الهام‌گرفته از سیستم عصبی انسان، موفق شد با ۶۸ میلیون پارامتر، عملکرد مدل‌های عظیم بینایی-زبانی-کنشی (VLA) را در کنترل ربات‌ها بازتولید کند.…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

LargeMonitor: گذار از معیارهای متصل به آموزش به ناظران چندوجهی در یادگیری مستمر

پژوهشگران چارچوب LargeMonitor را معرفی کردند که با بهره‌گیری از مدل‌های بینایی و چندوجهی ثابت، رانش توزیع داده‌ها را در یادگیری مستمر بدون تکلیف تشخیص و تحلیل می‌کند. این سیستم…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه مدل‌های جهانی در تولید داده‌های رباتیک، «درب‌های پشتی» مخفی ایجاد می‌کنند؟

پژوهشگران نوع جدیدی از حمله مسموم‌سازی داده را شناس کرده‌اند که مدل‌های جهانی را هدف قرار می‌دهد. این حمله با تزریق محرک‌های پنهان به داده‌های به‌ ظاهر امن، ربات‌ها را مجبور به…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چگونه معیار خود-سازگاری، قابلیت تشخیص نیت انسانی را به لبهٔ رایانش رباتیک آورد؟

پژوهشگران سیستمی برای تشخیص نیت ارتباطی انسان از طریق ژست‌های بدن در سخت‌افزارهای ارزان‌قیمت توسعه داده‌اند. این فناوری با استفاده از یک معیار خود-سازگاری اتورگرسیو، می‌تواند…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

PhysScene: گذار از بازشناسی بصری به استدلال رابطه‌ای در آزمایشگاه‌های فیزیک

پژوهشگران مجموعه داده PhysScene را معرفی کردند؛ نخستین گراف صحنه تخصصی برای محیط‌های آزمایشگاهی فیزیک. هدف این پروژه تغییر تمرکز مدل‌ها از روابط مکانی ساده به وابستگی‌های عملکردی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

بهبود ۶ درصدی تشخیص کم‌نمونه با رفع عدم‌توازن در پیشنهادهای ناحیه‌ای

یک رویکرد جدید در تشخیص اشیاء کم‌نمونه (FSOD) با اصلاح عدم‌توازن بین پیشنهادهای کلاس‌های پایه و جدید، دقت مدل‌ها را ۱ تا ۶ درصد افزایش داده است. این روش بدون ایجاد تأخیر در زمان…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

پژوهشگران چارچوب EgoTactile را معرفی کردند که می‌تواند فشار گیرش دست را تنها از طریق ویدیوهای اول‌شخص تخمین بزند. این سیستم با استفاده از مدل‌های انتشار، نیاز به سخت‌افزارهای لمسی…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

افزایش ۱۴.۵ درصدی دقت پیش‌بینی عبور عابر با مدل Qwen3-VL-2B

پژوهشگران با تنظیم دقیق مدل Qwen3-VL-2B و ادغام داده‌های مربوط به نگاه چشم و حرکت خودرو، رکورد جدیدی در پیش‌بینی قصد عابر پیاده ثبت کردند. این روش بر معماری‌های تخصصی ترنسفورمری…

۱ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

چرا متد گرم‌بندی در مدل‌های بینایی-زبانی اثر نهایی RL را تغییر نمی‌دهد؟

یک مطالعه فنی روی مدل‌های بینایی-زبانی نشان می‌دهد که انتخاب بین SFT و OPD در مرحله گرم‌بندی، تنها بر رژیم آنتروپی اولیه اثر می‌گذارد و تأثیری بر عملکرد نهایی یادگیری تقویت‌شده…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۳ هفته پیش

BareWave: حذف نمایش‌های آکوستیکی برای تولید مستقیم موج صوتی از متن

چارچوب BareWave با حذف نمایش‌های میانی و مراحل کدگشایی، امکان تولید مستقیم موج‌های صوتی را از روی متن فراهم می‌کند. این رویکرد پیچیدگی مسیر استنتاج را کاهش داده و در عین حال کیفیت…

۱ دقیقه خواندن