PR-MaGIC؛ روشی بدون آموزش برای بهبود بخش‌بندی تصویر با گرادیان سام

مدل‌های بنیادی بینایی مانند سام (Segment Anything Model) بخش‌بندی تصویر را متحول کرده‌اند. اما تولید پرامپت دستی و آموزش سفارشی برای وظایف تخصصی، چالش‌برانگیز است. روش‌های اخیر سام را در بخش‌بندی تک‌شات و چندشات با پرامپت‌دهی خودکار ادغام کرده‌اند. این رویکردها از تراز معنایی استفاده می‌کنند. با این حال، ناسازگاری‌های بصری میان تصاویر پشتیبان و پرس‌وجو، پرامپت‌های بهینه تولید نمی‌کنند.

PR-MaGIC این مشکل را حل می‌کند. این چارچوب از جریان گرادیان دیکودر ماسک سام بهره می‌برد. گرادیان‌ها اطلاعات مستقیم از نحوه تولید ماسک توسط سام به دست می‌دهند. سپس پرامپت‌ها در زمان آزمایش بدون هیچ آموزشی اصلاح می‌شوند.

یک استراتژی انتخاب برتر-۱ ساده، یکپارچگی با خطوط لوله بخش‌بندی موجود را تضمین می‌کند. عملکرد مقاومAcross diverse samples حفظ می‌شود. با استخراج مستقیم اطلاعات گرادیان از دیکودر ماسک، پرامپت‌ها برای تطبیق بهتر با ویژگی‌های تصویر پرس‌وجو تنظیم می‌شوند.

این رویکرد از نظر تئوری بنیان‌گذاری شده است. نیازی به داده آموزشی اضافی نیست. تغییر معماری یا مراحل تنظیم دقیق لازم نیست. آزمایش‌ها در معیارهای متعدد نشان می‌دهند که کیفیت بخش‌بندی به طور مداوم بهبود می‌یابد. پرامپت‌های ناکافی که در غیر این صورت نتایج را خراب می‌کردند، اصلاح می‌شوند.

این روش برای مدیریت تغییرات بصری میان تصاویر پشتیبان و پرس‌وجو بسیار ارزشمند است. رویکردهای معمول پرامپت‌دهی خودکار در این موارد کُند می‌شوند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

PR-MaGIC؛ روشی بدون آموزش برای بهبود بخش‌بندی تصویر با گرادیان سام

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PR-MaGIC؛ روشی بدون آموزش برای بهبود بخش‌بندی تصویر با گرادیان سام

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PR-MaGIC؛ روشی بدون آموزش برای بهبود بخش‌بندی تصویر با گرادیان سام

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PR-MaGIC؛ روشی بدون آموزش برای بهبود بخش‌بندی تصویر با گرادیان سام

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران