اگر در سیستمهای بینایی ماشین با دادههای اندک دست و پنجه نرم میکنید، باید بدانید که مشکل اصلی شما احتمالاً در لایهی طبقهبندی نیست، بلکه در کیفیت پیشنهادهای ناحیهای است. تصور کنید مدلی را داشته باشید که میتواند هر چیزی را تشخیص دهد، اما هرگز «کاندیدای» درست را برای بررسی پیش نمیآورد؛ این دقیقاً همان نقطهی شکست مدلهای فعلی است.
به گزارش arxiv.org، یک مکانیزم جدید برای اصلاح پیشنهادها در تشخیص اشیاء کمنمونه (Few-Shot Object Detection یا FSOD) توانسته است با رفع عدمتوازن توزیع بین پیشنهادهای کلاسهای پایه و جدید، به عملکردی در سطح State-of-the-art برسد. این رویکرد مستقیماً نقص بنیادین الگوریتمهای FSOD را هدف قرار داده است: اتکای بیش از حد به عملکرد طبقهبندی و نادیده گرفتن کیفیت پیشنهادهای ناحیهای زیرساختی.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای بینایی پیشآموزه اشاره کردیم، انتقال یادگیری همواره با چالش دادههای کم در کلاسهای جدید روبروست. در این سیستمها، شبکه پیشنهاد ناحیهای (Region Proposal Network یا RPN) به شدت به سمت کلاسهای پایه (که دادههای فراوانی دارند) سوگیری دارد و در مرحلهی تنظیم دقیق (Fine-tuning)، در تولید کاندیداهای باکیفیت برای کلاسهای جدید شکست میخورد.
طبق مستندات پژوهشی که در ۹ ژوئن ۲۰۲۶ توسط Yuan Zeng منتشر شد، این مشکل طی دو فاز حل شده است:
- یکپارچهسازی Loss اصلاحی: در فاز آموزش پایه، یک تابع زیان (Loss) برای افزایش حساسیت ذاتی مدل به کلاسهای جدید اضافه شده است.
- شاخه اصلاحی کمکی: یک شاخهی اختصاصی به عنوان مؤلفه کمکی برای RPN در طول تنظیم دقیق معرفی شده تا حجم بیشتری از پیشنهادهای دقیق برای کلاسهای جدید تولید کند.
نتایج نشان میدهد که این «شکاف پیشنهادها» یک گلوگاه بحرانی در FSOD است. با تمرکز بر توزیع پیشنهادها به جای دقت صرفِ طبقهبند، این روش بهبود ۱ تا ۶ درصدی در بنچمارکهای فعلی ایجاد کرده است. نکتهی کلیدی اینجاست که چون شاخهی اصلاحی تنها یک ابزار کمکی در زمان آموزش است، هیچ تأخیری در زمان استنتاج (Inference) نهایی ایجاد نمیکند.
گام بعدی شما
- بررسی قابلیت کاربرد این معماری شاخههای کمکی در سایر وظایف کمنمونه مانند بخشبندی (Segmentation).
- ارزیابی پایداری هزینه استنتاج صفر-درصد هنگام استقرار روی سختافزارهای لبه (Edge Hardware) با منابع محدود.
- پیادهسازی Loss اصلاحی در مدلهای بینایی موجود برای کاهش سوگیری کلاسی.
اما تأثیر این رویکرد بر کاهش نیاز به دادههای برچسبگذاری شده در مقیاس صنعتی حتی چشمگیرتر است — به تحلیل ما دربارهی مدلهای بازمتن بینایی مراجعه کنید.
گفتگو