پژوهشگران چارچوب جدیدی به نام DiT-ST توسعه دادهاند که نحوه درک سیستمهای هوش مصنوعی از توصیفات متنی هنگام تولید تصویر را بهطور چشمگیری بهبود میدهد. رویکرد شرطیگذاری متن تقسیمشده یک محدودیت بنیادی در ترانسفورمرهای منتشر کنونی را برطرف میکند که اغلب در تفسیر کپشنهای کامل و پیچیده با مشکل مواجه هستند.
سیستمهای فعلی متنبهتصویر معمولاً جملات کامل را یکجا پردازش میکنند که این امر میتواند منجر به سردرگمی هنگام مدیریت عناصر معنایی متعدد مانند اشیا، ویژگیها، روابط و اقدامات شود. این نقص درک باعث میشود مدلها یا جزئیات مهم را از دست بدهند یا در حین تولید تصویر دچار تعارض معنایی شوند.
DiT-ST این مشکل را با شکستن کپشنهای پیچیده به جملات سادهتر و سلسلهمراتبی حل میکند که بهصراحت نماینده عناصر معنایی اولیه مختلف و روابط بین آنها هستند. این چارچوب از مدلهای زبانی بزرگ برای تجزیه متن ورودی بهره میبرد و عناصر معنایی متنوع را استخراج کرده و آنها را در قالب متن تقسیمشده ساختاریافته سازماندهی میکند.
پژوهشگران همچنین روشی برای پارتیشنبندی فرآیند نویززدایی منتشر بر اساس حساسیت مراحل مختلف به انواع مختلف عناصر معنایی اولیه توسعه دادهاند. این کار امکان تزریق توکنهای نماینده عناصر معنایی مختلف در بازههای زمانی مناسب از طریق مکانیزمهای توجه متقاطع را فراهم میسازد.
با تزریق تدریجی توکنهای معنایی، DiT-ST یادگیری نمایش انواع معنایی خاص را در مراحل مناسب تقویت میکند. آزمایشها در معیارهای متعدد نشان میدهد این چارچوب بهطور مؤثری نقصهای درک متن کامل را در ترانسفورمرهای منتشر کاهش میدهد.
این کار نشاندهنده گامی مهم در تولید متنبهتصویر است و راهحلی عملی برای چالشی بنیادین در نحوه پردازش و تفسیر توصیفات زبان طبیعی توسط مدلهای هوش مصنوعی برای خلق محتوای بصری ارائه میدهد.

گفتگو