
خطای هندسی پنهانی که دقت مدلهای چندوجهی شما را میکشد
پژوهشگران با معرفی روش DP-FM، مشکل اعوجاجهای هندسی در تطبیق مدلهای بینایی-زبانی را حل کردند. این متد با جداسازی دینامیکهای شعاعی و زاویهای، رکورد جدیدی در ۱۱ بنچمارک مختلف ثبت…
موضوع
Models that natively process text+image+audio+video
۴۰۳ مقاله منتشر شده

پژوهشگران با معرفی روش DP-FM، مشکل اعوجاجهای هندسی در تطبیق مدلهای بینایی-زبانی را حل کردند. این متد با جداسازی دینامیکهای شعاعی و زاویهای، رکورد جدیدی در ۱۱ بنچمارک مختلف ثبت…

مدل DART با ترکیب بینایی و زبان، بازرسی کابلهای صنعتی را خودکار کرده و دقت تشخیص آسیب را به شکل چشمگیری افزایش داده است. این سیستم بدون نیاز به تنظیم دقیق، شدت آسیب را تخمین زده…

پژوهشگران با معرفی مدل FairEnc توانستند سوگیریهای نژادی و جنسیتی را از سیستمهای تشخیص بیماری گلوکوم حذف کنند. این مدل چندوجهی با استفاده از دادههای مصنوعی و یادگیری تقابلی، دقت…

انسانها در شناسایی جعلهای عمیق پیشرفته، بهویژه مدلهای ترکیبی صوتی-تصویری، بهشدت ناتوان هستند. این مطالعه نشان میدهد که تکیه بر شهود انسانی برای تشخیص محتوای دستکاریشده…

پژوهشگران با معرفی FaithfulFaces، مشکل تغییر ناگهانی چهره در ویدیوهای تولید شده توسط هوش مصنوعی را حل کردند. این سیستم با استفاده از بردار معنایی زوایای اویلر، ثبات چهره را حتی در…

پژوهشگران چارچوب MB2L را برای همراستاسازی سیگنالهای EEG با تصاویر دیجیتال توسعه دادهاند. این سیستم با تقلید از پردازشهای قشر مغز، دقت خیرهکنندهای در بازیابی تصاویر بدون آموزش…

پژوهشگران با معرفی VocalParse، تبدیل صدای خواننده به نتهای موسیقی را خودکار کردند. این مدل با بهرهگیری از مدلهای زبانی صوتی بزرگ، مشکل همراستاسازی متن و نت را در سبکهای متنوع…

چارچوب RLFSeg با جایگزینی فرآیندهای نویزی مدلهای انتشار با «جریان اصلاحشده»، دقت بخشبندی تصاویر را متحول کرده است. این رویکرد با ایجاد نقشهبرداری مستقیم از تصویر به ماسک، سرعت…

چارچوب جدید JASTIN به مدلهای زبانی اجازه میدهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزشهای خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

معرفی بنچمارک DiffCap-Bench نشان داد که مدلهای تجاری در درک تفاوتهای بصری، فرسنگها از مدلهای متنباز جلوترند. این یافته ثابت میکند که صرفاً بزرگتر کردن مدلها، مشکل استدلال…

چارچوب EBOD با ادغام SAM3 و DINOv3، خطاهای تکراری در تشخیص اشیاء را بدون نیاز به آموزش مجدد مدل حذف میکند. این رویکرد هزینههای محاسباتی سنگین را کنار گذاشته و یادگیری از…

پژوهشگران با معرفی چارچوب EBM-RL، فرآیند ادراک، استدلال و بیان را از هم تفکیک کردند تا نقشآفرینی در ویدئو را متحول کنند. این مدل با استفاده از چهار پاداش مجزا، هماهنگی میان…