سرگرمی و خلاقیت

درون معماری FLO-EMD: پایان توهمات بصری در سیستم‌های مدیریت شهری

پژوهشگران با معرفی چارچوب FLO-EMD، دقت تشخیص ترافیک شهری را به ۹۷.۵ درصد رساندند. این سیستم با ترکیب تحلیل‌های مکانی و دینامیک‌های زمانی، مشکل خطاهای بصری در مدل‌های سنتی را حل…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

فریب خوردن انسان‌ها؛ حقیقت تکان‌دهنده درباره‌ی تشخیص جعل عمیق

انسان‌ها در شناسایی جعل‌های عمیق پیشرفته، به‌ویژه مدل‌های ترکیبی صوتی-تصویری، به‌شدت ناتوان هستند. این مطالعه نشان می‌دهد که تکیه بر شهود انسانی برای تشخیص محتوای دست‌کاری‌شده…

۲ دقیقه خواندن

سرگرمی و خلاقیت۲ ماه پیش

تثبیت هویت بصری در ویدیو؛ FaithfulFaces چگونه دگرگونی چهره را متوقف کرد

پژوهشگران با معرفی FaithfulFaces، مشکل تغییر ناگهانی چهره در ویدیوهای تولید شده توسط هوش مصنوعی را حل کردند. این سیستم با استفاده از بردار معنایی زوایای اویلر، ثبات چهره را حتی در…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

روشی که خاطرات بصری شما را از اسکن مغزی استخراج می‌کند

پژوهشگران چارچوب MB2L را برای همراستاسازی سیگنال‌های EEG با تصاویر دیجیتال توسعه داده‌اند. این سیستم با تقلید از پردازش‌های قشر مغز، دقت خیره‌کننده‌ای در بازیابی تصاویر بدون آموزش…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

پایان سلطه‌ی برچسب‌های دستی؛ RefCD چگونه دسته‌بندی اشیاء را خودکار کرد؟

پژوهشگران با معرفی RefCD، عصر جدیدی از تشخیص اشیاء بدون نیاز به برچسب‌های انسانی را آغاز کردند. این مدل با تکیه بر شباهت ویژگی‌ها، شکاف میان روش‌های گران‌قیمت تک-نمونه و مدل‌های…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

درون معماری RLFSeg: پایان عصر نویز در بخش‌بندی تصاویر

چارچوب RLFSeg با جایگزینی فرآیندهای نویزی مدل‌های انتشار با «جریان اصلاح‌شده»، دقت بخش‌بندی تصاویر را متحول کرده است. این رویکرد با ایجاد نقشه‌برداری مستقیم از تصویر به ماسک، سرعت…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

چگونه «توجه متقاطع پنجره‌ای» دقت تصاویر ماهواره‌ای مصنوعی را متحول کرد؟

پژوهشگران روشی کارآمد برای تولید تصاویر ماهواره‌ای با کیفیت بالا ابداع کرده‌اند که همراستاسازی تصاویر مصنوعی با نقشه‌های هندسی را بهبود می‌بخشد. این دستاورد، کمبود داده‌های حیاتی…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

معرفی بنچ‌مارک DiffCap-Bench نشان داد که مدل‌های تجاری در درک تفاوت‌های بصری، فرسنگ‌ها از مدل‌های متن‌باز جلوترند. این یافته ثابت می‌کند که صرفاً بزرگ‌تر کردن مدل‌ها، مشکل استدلال…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

روشی که خطاهای تکراری مدل‌های تشخیص اشیاء را برای همیشه پاک می‌کند

چارچوب EBOD با ادغام SAM3 و DINOv3، خطاهای تکراری در تشخیص اشیاء را بدون نیاز به آموزش مجدد مدل حذف می‌کند. این رویکرد هزینه‌های محاسباتی سنگین را کنار گذاشته و یادگیری از…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از معماری پنهانی که مدل‌های بینایی را در برابر حملات مصون می‌کند

یک مطالعه جدید نشان می‌دهد مقاومت مدل‌های بینایی در برابر حملات خصمانه ناشی از فیلترهای فرکانسی نیست، بلکه ریشه در هندسه‌ی بازنمایی شبیه به انسان دارد. این کشف، مسیر مقابله با…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

رمزگشایی از پایداری دینامیکی؛ روشی برای شکستن چرخه ابدی جعل‌های عمیق

پژوهشگران با معرفی متد HAAD، شناسایی جعل‌های عمیق را از تحلیل الگوهای بصری به تحلیل پایداری فیزیکی منتقل کردند. این رویکرد با شناسایی «ناپایداری‌های انرژی» در تصاویر مصنوعی، نیاز…

۲ دقیقه خواندن

تحلیل و بررسی تخصصی۲ ماه پیش

معماری «چشم-مغز-دهان»؛ نقطه عطف در واقع‌گرایی عامل‌های چندوجهی

پژوهشگران با معرفی چارچوب EBM-RL، فرآیند ادراک، استدلال و بیان را از هم تفکیک کردند تا نقش‌آفرینی در ویدئو را متحول کنند. این مدل با استفاده از چهار پاداش مجزا، هماهنگی میان…

۲ دقیقه خواندن