
دستیابی به دقت ۹۸ درصدی در طبقهبندی عیوب STEM با مدلهای زمینهآگاه
یک چارچوب جدید یادگیری عمیق با ادغام دادههای تصویری و متادیتای تجربی، مشکل ابهام کنتراست در میکروسکوپهای الکترونی را حل کرده است. این سیستم در طبقهبندی عیوب تصویربرداری با…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

یک چارچوب جدید یادگیری عمیق با ادغام دادههای تصویری و متادیتای تجربی، مشکل ابهام کنتراست در میکروسکوپهای الکترونی را حل کرده است. این سیستم در طبقهبندی عیوب تصویربرداری با…

یک تحلیل آکادمیک نشان میدهد درامهای کوتاه تولیدشده توسط هوش مصنوعی، از زیباییشناسی «بانمک» برای پنهان کردن کلیشههای جنسیتی و نژادی استفاده میکنند. این متد که «شستشوی…

مدل جدید CT-VAM با استفاده از معماری الهامگرفته از سیستم عصبی انسان، موفق شد با ۶۸ میلیون پارامتر، عملکرد مدلهای عظیم بینایی-زبانی-کنشی (VLA) را در کنترل رباتها بازتولید کند.…

پژوهشگران چارچوب LargeMonitor را معرفی کردند که با بهرهگیری از مدلهای بینایی و چندوجهی ثابت، رانش توزیع دادهها را در یادگیری مستمر بدون تکلیف تشخیص و تحلیل میکند. این سیستم…

پژوهشگران نوع جدیدی از حمله مسمومسازی داده را شناس کردهاند که مدلهای جهانی را هدف قرار میدهد. این حمله با تزریق محرکهای پنهان به دادههای به ظاهر امن، رباتها را مجبور به…

پژوهشگران سیستمی برای تشخیص نیت ارتباطی انسان از طریق ژستهای بدن در سختافزارهای ارزانقیمت توسعه دادهاند. این فناوری با استفاده از یک معیار خود-سازگاری اتورگرسیو، میتواند…

پژوهشگران مجموعه داده PhysScene را معرفی کردند؛ نخستین گراف صحنه تخصصی برای محیطهای آزمایشگاهی فیزیک. هدف این پروژه تغییر تمرکز مدلها از روابط مکانی ساده به وابستگیهای عملکردی…

یک رویکرد جدید در تشخیص اشیاء کمنمونه (FSOD) با اصلاح عدمتوازن بین پیشنهادهای کلاسهای پایه و جدید، دقت مدلها را ۱ تا ۶ درصد افزایش داده است. این روش بدون ایجاد تأخیر در زمان…

پژوهشگران چارچوب EgoTactile را معرفی کردند که میتواند فشار گیرش دست را تنها از طریق ویدیوهای اولشخص تخمین بزند. این سیستم با استفاده از مدلهای انتشار، نیاز به سختافزارهای لمسی…

پژوهشگران با تنظیم دقیق مدل Qwen3-VL-2B و ادغام دادههای مربوط به نگاه چشم و حرکت خودرو، رکورد جدیدی در پیشبینی قصد عابر پیاده ثبت کردند. این روش بر معماریهای تخصصی ترنسفورمری…

یک مطالعه فنی روی مدلهای بینایی-زبانی نشان میدهد که انتخاب بین SFT و OPD در مرحله گرمبندی، تنها بر رژیم آنتروپی اولیه اثر میگذارد و تأثیری بر عملکرد نهایی یادگیری تقویتشده…

چارچوب BareWave با حذف نمایشهای میانی و مراحل کدگشایی، امکان تولید مستقیم موجهای صوتی را از روی متن فراهم میکند. این رویکرد پیچیدگی مسیر استنتاج را کاهش داده و در عین حال کیفیت…