پژوهشگران چارچوبی نوین به نام مُدیکس معرفی کردهاند که بدون نیاز به آموزش، نحوه کدگذاری موقعیت در مدلهای بینایی-زبان را بهصورت پویا تنظیم میکند. این رویکرد به یک محدودیت بنیادین در مدلهای فعلی میپردازد که در آنها شاخصهای موقعیت بهصورت یکنواخت تخصیص مییابند و منجر به توزیع ناکارآمد توجه میشود؛ بهطوری که نواحی بصری تکراری توجه بیشتری جلب میکنند در حالی که محتوای اطلاعاتی مهم نادیده گرفته میشود.
نوآوری اصلی این روش در treating positional granularity بهعنوان منبعی تطبیقی نهفته است. مُدیکس بهصورت مشترک چگالی درونمُدالی را با استفاده از آنتروپی مبتنی بر کوواریانس و تعاملات بینمُدالی را از طریق همترازی بینمُدالی مدلسازی میکند. این امتیازات یکپارچه، شاخصهای موقعیت را بازمقیاسبندی کرده و دقت بیشتری را به مُدالهای پُراطلاعات اختصاص میدهند و در عین حال بخشهای تکراری را فشرده میسازند.
برخلاف رویکردهای موجود که نیازمند تغییرات معماری یا تنظیم دقیق هستند، مُدیکس کاملاً بدون آموزش عمل میکند و پارامترهای اصلی مدل را حفظ مینماید. این چارچوب با استخراج امتیازات مشارکت یکپارچه، گامهای بهینه موقعیت را برای هر توکن بر اساس ارزش اطلاعاتی آن تعیین میکند.
{{img:0}}
آزمایشها بر روی معماریها و معیارهای گوناگون، بهبود مستمری در وظایف استدلال چندمُدالی نشان دادهاند. این روش توجه را مطابق با توزیعهای وابسته به وظیفه بازتخصیص میدهد و پیشنهاد میکند که کدگذاری موقعیت باید بهعنوان منبعی انعطافپذیر و آگاه از اطلاعات در نظر گرفته شود، نه یک مؤلفه ساختاری ثابت.
این رویکرد بهویژه در سناریوهایی با چگالی اطلاعات متفاوت در مُدالهای بصری و زبانی مؤثر است؛ جایی که کدگذاری موقعیت یکنواخت سنتی بهینه نیست. مُدیکس با مقیاسبندی هوشمندانه شاخصهای موقعیت بر اساس محتوای اطلاعاتی واقعی، امکان پردازش کارآمدتر و متمرکزتر ورودیهای چندمُدالی را فراهم میسازد.

گفتگو