مدلهای بنیادی بینایی مانند سام (Segment Anything Model) بخشبندی تصویر را متحول کردهاند. اما تولید پرامپت دستی و آموزش سفارشی برای وظایف تخصصی، چالشبرانگیز است. روشهای اخیر سام را در بخشبندی تکشات و چندشات با پرامپتدهی خودکار ادغام کردهاند. این رویکردها از تراز معنایی استفاده میکنند. با این حال، ناسازگاریهای بصری میان تصاویر پشتیبان و پرسوجو، پرامپتهای بهینه تولید نمیکنند.
PR-MaGIC این مشکل را حل میکند. این چارچوب از جریان گرادیان دیکودر ماسک سام بهره میبرد. گرادیانها اطلاعات مستقیم از نحوه تولید ماسک توسط سام به دست میدهند. سپس پرامپتها در زمان آزمایش بدون هیچ آموزشی اصلاح میشوند.
{{img:0}}
یک استراتژی انتخاب برتر-۱ ساده، یکپارچگی با خطوط لوله بخشبندی موجود را تضمین میکند. عملکرد مقاومAcross diverse samples حفظ میشود. با استخراج مستقیم اطلاعات گرادیان از دیکودر ماسک، پرامپتها برای تطبیق بهتر با ویژگیهای تصویر پرسوجو تنظیم میشوند.
این رویکرد از نظر تئوری بنیانگذاری شده است. نیازی به داده آموزشی اضافی نیست. تغییر معماری یا مراحل تنظیم دقیق لازم نیست. آزمایشها در معیارهای متعدد نشان میدهند که کیفیت بخشبندی به طور مداوم بهبود مییابد. پرامپتهای ناکافی که در غیر این صورت نتایج را خراب میکردند، اصلاح میشوند.
این روش برای مدیریت تغییرات بصری میان تصاویر پشتیبان و پرسوجو بسیار ارزشمند است. رویکردهای معمول پرامپتدهی خودکار در این موارد کُند میشوند.

گفتگو