پرش به محتوای اصلی

موضوع

چندوجهی

Models that natively process text+image+audio+video

۴۰۳ مقاله منتشر شده

خطای هندسی پنهانی که دقت مدل‌های چندوجهی شما را می‌کشد

خطای هندسی پنهانی که دقت مدل‌های چندوجهی شما را می‌کشد

پژوهشگران با معرفی روش DP-FM، مشکل اعوجاج‌های هندسی در تطبیق مدل‌های بینایی-زبانی را حل کردند. این متد با جداسازی دینامیک‌های شعاعی و زاویه‌ای، رکورد جدیدی در ۱۱ بنچمارک مختلف ثبت…

۲ دقیقه خواندن
داده‌های جدید Arxiv: مدل DART دقت بازرسی کابل‌ها را ۳۸٪ جهش داد

داده‌های جدید Arxiv: مدل DART دقت بازرسی کابل‌ها را ۳۸٪ جهش داد

مدل DART با ترکیب بینایی و زبان، بازرسی کابل‌های صنعتی را خودکار کرده و دقت تشخیص آسیب را به شکل چشم‌گیری افزایش داده است. این سیستم بدون نیاز به تنظیم دقیق، شدت آسیب را تخمین زده…

۲ دقیقه خواندن
پایان تبعیض نژادی در تشخیص گلوکوم؛ رمزگشایی از مدل FairEnc

پایان تبعیض نژادی در تشخیص گلوکوم؛ رمزگشایی از مدل FairEnc

پژوهشگران با معرفی مدل FairEnc توانستند سوگیری‌های نژادی و جنسیتی را از سیستم‌های تشخیص بیماری گلوکوم حذف کنند. این مدل چندوجهی با استفاده از داده‌های مصنوعی و یادگیری تقابلی، دقت…

۲ دقیقه خواندن
فریب خوردن انسان‌ها؛ حقیقت تکان‌دهنده درباره‌ی تشخیص جعل عمیق

فریب خوردن انسان‌ها؛ حقیقت تکان‌دهنده درباره‌ی تشخیص جعل عمیق

انسان‌ها در شناسایی جعل‌های عمیق پیشرفته، به‌ویژه مدل‌های ترکیبی صوتی-تصویری، به‌شدت ناتوان هستند. این مطالعه نشان می‌دهد که تکیه بر شهود انسانی برای تشخیص محتوای دست‌کاری‌شده…

۲ دقیقه خواندن
تثبیت هویت بصری در ویدیو؛ FaithfulFaces چگونه دگرگونی چهره را متوقف کرد

تثبیت هویت بصری در ویدیو؛ FaithfulFaces چگونه دگرگونی چهره را متوقف کرد

پژوهشگران با معرفی FaithfulFaces، مشکل تغییر ناگهانی چهره در ویدیوهای تولید شده توسط هوش مصنوعی را حل کردند. این سیستم با استفاده از بردار معنایی زوایای اویلر، ثبات چهره را حتی در…

۲ دقیقه خواندن
روشی که خاطرات بصری شما را از اسکن مغزی استخراج می‌کند

روشی که خاطرات بصری شما را از اسکن مغزی استخراج می‌کند

پژوهشگران چارچوب MB2L را برای همراستاسازی سیگنال‌های EEG با تصاویر دیجیتال توسعه داده‌اند. این سیستم با تقلید از پردازش‌های قشر مغز، دقت خیره‌کننده‌ای در بازیابی تصاویر بدون آموزش…

۲ دقیقه خواندن
رمزگشایی از VocalParse: معماری جدیدی برای تبدیل خودکار آواز به نت

رمزگشایی از VocalParse: معماری جدیدی برای تبدیل خودکار آواز به نت

پژوهشگران با معرفی VocalParse، تبدیل صدای خواننده به نت‌های موسیقی را خودکار کردند. این مدل با بهره‌گیری از مدل‌های زبانی صوتی بزرگ، مشکل همراستاسازی متن و نت را در سبک‌های متنوع…

۳ دقیقه خواندن
درون معماری RLFSeg: پایان عصر نویز در بخش‌بندی تصاویر

درون معماری RLFSeg: پایان عصر نویز در بخش‌بندی تصاویر

چارچوب RLFSeg با جایگزینی فرآیندهای نویزی مدل‌های انتشار با «جریان اصلاح‌شده»، دقت بخش‌بندی تصاویر را متحول کرده است. این رویکرد با ایجاد نقشه‌برداری مستقیم از تصویر به ماسک، سرعت…

۲ دقیقه خواندن
چرا برای ارزیابی کیفیت صدا دیگر نیازی به آموزش مدل‌های تخصصی نیست؟

چرا برای ارزیابی کیفیت صدا دیگر نیازی به آموزش مدل‌های تخصصی نیست؟

چارچوب جدید JASTIN به مدل‌های زبانی اجازه می‌دهد تا کیفیت صدا، گفتار و موسیقی را بدون نیاز به آموزش‌های خاص و در حالت صفر-شات ارزیابی کنند. این سیستم با دستیابی به دقت در سطح…

۲ دقیقه خواندن
افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

معرفی بنچ‌مارک DiffCap-Bench نشان داد که مدل‌های تجاری در درک تفاوت‌های بصری، فرسنگ‌ها از مدل‌های متن‌باز جلوترند. این یافته ثابت می‌کند که صرفاً بزرگ‌تر کردن مدل‌ها، مشکل استدلال…

۲ دقیقه خواندن
روشی که خطاهای تکراری مدل‌های تشخیص اشیاء را برای همیشه پاک می‌کند

روشی که خطاهای تکراری مدل‌های تشخیص اشیاء را برای همیشه پاک می‌کند

چارچوب EBOD با ادغام SAM3 و DINOv3، خطاهای تکراری در تشخیص اشیاء را بدون نیاز به آموزش مجدد مدل حذف می‌کند. این رویکرد هزینه‌های محاسباتی سنگین را کنار گذاشته و یادگیری از…

۲ دقیقه خواندن
معماری «چشم-مغز-دهان»؛ نقطه عطف در واقع‌گرایی عامل‌های چندوجهی

معماری «چشم-مغز-دهان»؛ نقطه عطف در واقع‌گرایی عامل‌های چندوجهی

پژوهشگران با معرفی چارچوب EBM-RL، فرآیند ادراک، استدلال و بیان را از هم تفکیک کردند تا نقش‌آفرینی در ویدئو را متحول کنند. این مدل با استفاده از چهار پاداش مجزا، هماهنگی میان…

۲ دقیقه خواندن