سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

اگر در حال آموزش مدل‌های چندوجهی روی توالی‌های مختلف از داده هستید، می‌دانید که «فراموشی فاجعه‌بار» بزرگ‌ترین مانع پیش روی شماست. باید بدانید که تکیه به پرامپت‌های کلی برای هر وظیفه، دیگر پاسخگوی پیچیدگی‌های داده‌های بصری نیست.

به نقل از مقاله arXiv منتشر شده در ۱۲ مه ۲۰۲۶، مدل DRAPE (تولید پویای پرامپت‌های متقاطع-وجهی) توانسته است با تغییر رویکرد از انطباق در سطح وظیفه به سطح نمونه، به عملکردی پیشرو در تنظیم دستورالعمل‌های مداوم چندوجهی (MCIT) دست یابد. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های حافظه در مدل‌های زبانی اشاره کردیم، مدل‌های چندوجهی (Multimodal) معمولاً هنگام یادگیری وظایف جدید، دانش قبلی خود را پاک می‌کنند.

بر اساس مستندات فنی این پژوهش، دلیل شکست روش‌های فعلی (مانند LoRA یا پرامپت‌های ثابت) این است که نمونه‌های درون یک «وظیفه» واحد، از نظر صحنه‌های بصری و نیازهای استدلالی تفاوت زیادی با هم دارند. DRAPE برای حل این مشکل، پرامپت‌های نرم (soft prompts) پیوسته‌ای را سنتز می‌کند که دقیقاً برای هر جفت تصویر-پرسش طراحی شده‌اند.

جزئیات فنی این سازوکار شامل موارد زیر است:

استخراج پرس‌وجوهای پرامپت از دستورات متنی و اعمال توجیه متقاطع (cross-attention) آن‌ها بر ویژگی‌های تکه‌های بصری.
اتصال این پرامپت‌های شرطی‌شده به یک مدل زبانی بزرگ (LLM) منجمد برای حفظ پایداری هسته مدل.
به‌کارگیری تصویرسازی گرادیان فضای تهی (null-space gradient projection) در پروژکتور مشترک برای کاهش فراموشی در طول به‌روزرسانی‌ها.
استفاده از مسیریابی پروتوتایپ مبتنی بر CLIP برای انتخاب مولد در زمان استنتاج (Inference) بدون نیاز به برچسب وظیفه.

این رویکرد، فرض بنیادین این حوزه را تغییر می‌دهد: دیگر پذیرفته نیست که یک پرامپت برای کل یک وظیفه کافی باشد؛ بلکه هر جفت تصویر-متن باید به عنوان یک رویداد تولید پرامپت منحصربه‌فرد در نظر گرفته شود. اگرچه نویسندگان درصد دقیق بهبود بنچمارک‌ها را در چکیده ذکر نکردند، اما تأیید کرده‌اند که این چارچوب از تمامی خط‌بارهای مبتنی بر LoRA و پرامپت‌های ایستا پیشی گرفته است.

گام بعدی شما

بررسی نحوه ادغام این پرامپت‌های مختص-به-نمونه در مدل‌های وزن‌های باز (Open Weights) بزرگ‌تر.
ارزیابی اینکه آیا این روش می‌تواند نیاز به کتابخانه‌های حجیم تنظیم دقیق (Fine-tuning) پارامتر-بهینه (PEFT) را کاهش دهد یا خیر.

اما هزینه محاسباتی این تولید پویا در مقیاس بالا همچنان یک علامت سؤال است؛ تحلیل ما درباره‌ی بهینه‌سازی استنتاج را دنبال کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات فنی این سازوکار شامل موارد زیر است:

استخراج پرس‌وجوهای پرامپت از دستورات متنی و اعمال توجیه متقاطع (cross-attention) آن‌ها بر ویژگی‌های تکه‌های بصری.
اتصال این پرامپت‌های شرطی‌شده به یک مدل زبانی بزرگ (LLM) منجمد برای حفظ پایداری هسته مدل.
به‌کارگیری تصویرسازی گرادیان فضای تهی (null-space gradient projection) در پروژکتور مشترک برای کاهش فراموشی در طول به‌روزرسانی‌ها.
استفاده از مسیریابی پروتوتایپ مبتنی بر CLIP برای انتخاب مولد در زمان استنتاج (Inference) بدون نیاز به برچسب وظیفه.

گام بعدی شما

بررسی نحوه ادغام این پرامپت‌های مختص-به-نمونه در مدل‌های وزن‌های باز (Open Weights) بزرگ‌تر.
ارزیابی اینکه آیا این روش می‌تواند نیاز به کتابخانه‌های حجیم تنظیم دقیق (Fine-tuning) پارامتر-بهینه (PEFT) را کاهش دهد یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار DRAPE: انتقال از انطباق سطح-وظیفه به سطح-نمونه در مدل‌های چندوجهی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران