اگر در حال آموزش مدلهای چندوجهی روی توالیهای مختلف از داده هستید، میدانید که «فراموشی فاجعهبار» بزرگترین مانع پیش روی شماست. باید بدانید که تکیه به پرامپتهای کلی برای هر وظیفه، دیگر پاسخگوی پیچیدگیهای دادههای بصری نیست.
به نقل از مقاله arXiv منتشر شده در ۱۲ مه ۲۰۲۶، مدل DRAPE (تولید پویای پرامپتهای متقاطع-وجهی) توانسته است با تغییر رویکرد از انطباق در سطح وظیفه به سطح نمونه، به عملکردی پیشرو در تنظیم دستورالعملهای مداوم چندوجهی (MCIT) دست یابد. همانطور که در تحلیلهای پیشین ما دربارهی چالشهای حافظه در مدلهای زبانی اشاره کردیم، مدلهای چندوجهی (Multimodal) معمولاً هنگام یادگیری وظایف جدید، دانش قبلی خود را پاک میکنند.
بر اساس مستندات فنی این پژوهش، دلیل شکست روشهای فعلی (مانند LoRA یا پرامپتهای ثابت) این است که نمونههای درون یک «وظیفه» واحد، از نظر صحنههای بصری و نیازهای استدلالی تفاوت زیادی با هم دارند. DRAPE برای حل این مشکل، پرامپتهای نرم (soft prompts) پیوستهای را سنتز میکند که دقیقاً برای هر جفت تصویر-پرسش طراحی شدهاند.
جزئیات فنی این سازوکار شامل موارد زیر است:
- استخراج پرسوجوهای پرامپت از دستورات متنی و اعمال توجیه متقاطع (cross-attention) آنها بر ویژگیهای تکههای بصری.
- اتصال این پرامپتهای شرطیشده به یک مدل زبانی بزرگ (LLM) منجمد برای حفظ پایداری هسته مدل.
- بهکارگیری تصویرسازی گرادیان فضای تهی (null-space gradient projection) در پروژکتور مشترک برای کاهش فراموشی در طول بهروزرسانیها.
- استفاده از مسیریابی پروتوتایپ مبتنی بر CLIP برای انتخاب مولد در زمان استنتاج (Inference) بدون نیاز به برچسب وظیفه.
این رویکرد، فرض بنیادین این حوزه را تغییر میدهد: دیگر پذیرفته نیست که یک پرامپت برای کل یک وظیفه کافی باشد؛ بلکه هر جفت تصویر-متن باید به عنوان یک رویداد تولید پرامپت منحصربهفرد در نظر گرفته شود. اگرچه نویسندگان درصد دقیق بهبود بنچمارکها را در چکیده ذکر نکردند، اما تأیید کردهاند که این چارچوب از تمامی خطبارهای مبتنی بر LoRA و پرامپتهای ایستا پیشی گرفته است.
گام بعدی شما
- بررسی نحوه ادغام این پرامپتهای مختص-به-نمونه در مدلهای وزنهای باز (Open Weights) بزرگتر.
- ارزیابی اینکه آیا این روش میتواند نیاز به کتابخانههای حجیم تنظیم دقیق (Fine-tuning) پارامتر-بهینه (PEFT) را کاهش دهد یا خیر.
اما هزینه محاسباتی این تولید پویا در مقیاس بالا همچنان یک علامت سؤال است؛ تحلیل ما دربارهی بهینهسازی استنتاج را دنبال کنید.




گفتگو