پژوهشگران یک تیم دانشگاهی رویکردی نوین برای مقابله با یکی از چالشبرانگیزترین مشکلات هوش مصنوعی ارائه کردهاند: پدیده توهم در مدلهای زبانی بزرگ چندوجهی (MLLM). روش مذکور که «رمزگشایی از طریق اختلال» (DeP) نامیده شده، راهکاری بدون نیاز به آموزش مجدد فراهم میکند که ریشه توهمات را در فرآیند رمزگشایی مدل هدف قرار میدهد.
مشکل اصلی که پژوهشگران شناسایی کردهاند این است که مدلهای زبانی چندوجهی اغلب دچار توهمات استنتاجی میشوند، زیرا پیشفرضهای زبانی تمایل دارند بر شواهد بصری غلبه یابند. رویکردهای موجود برای کاهش این مشکل معایب قابل توجهی دارند: برخی بازنماییهای بصری را به شیوهای تغییر میدهند که از توزیع طبیعی تصاویر خارج میشود، و برخی دیگر دستکاریهای تهاجمی اعمال میکنند که روانی تولیدی ذاتی مدل را مختل میسازد.
چارچوب DeP نگاهی تازه به مسئله ارائه میدهد و توهم چندوجهی را بهعنوان حساسیت بیش از حد زمینگذاری بصری نسبت به عبارات متنی در هنگام رمزگشایی تعریف میکند. DeP به جای تغییر ورودیهای بصری یا نیاز به آموزش مجدد مدل، از یک پروب پویا استفاده میکند که اختلالات متنی چندسطحی را برای استخراج پیشفرضهای زبانی نهفته بهکار میبرد. این سیستم از واریانس توجه برای تقویت مناطق شواهد پایدار در فضای ویژگی و سرکوب نویز مشکوک بهره میبرد. علاوه بر این، جهت انحراف تفسیرپذیر پیشفرض را با استفاده از آمار لاگها (logits) میسازد تا سوگیریهای احتمال ناشی از همرخدادیهای متنی را خنثی کند.
این رویکرد نمایانگر تغییر مسیر قابل توجهی نسبت به کارهای پیشین در این حوزه است. تلاشهای اخیر مانند روش Lightning OPD که امکان آموزش سریعتر مدلهای زبانی بدون سرور معلم زنده را فراهم میکند، بر بهرهوری آموزش تمرکز داشتهاند، در حالی که DeP بهطور مشخص کاهش توهم در زمان استنتاج را از طریق مداخله متنی هدف قرار میدهد.
پژوهشگران صحت عملکرد DeP را از طریق آزمایشهای گسترده در معیارهای (benchmark) متعدد تأیید کردهاند و نشان دادهاند که این روش بهطور مؤثر توهمات را کاهش میدهد و در عین حال عملکرد برتری نسبت به روشهای موجود بدون نیاز به آموزش مجدد ارائه میدهد. این پژوهش توسط سیهانگ جیا و تیمش انجام شده و بهصورت پیشچاپ در arxiv.org در دسترس است.
پیامدهای این کار برای جامعه هوش مصنوعی قابل توجه است. با افزایش ادغام سیستمهای هوش مصنوعی چندوجهی در کاربردهای واقعی، از درک تصویر تا تحلیل اسناد، کاهش توهمات بدون نیاز به آموزش مجدد مدل یا تغییرات معماری میتواند استقرار سیستمهای قابل اعتمادتر را تسریع کند. ماهیت بدون نیاز به آموزش DeP به این معناست که میتوان آن را بدون تغییرات گسترده برای پیادهسازیهای مختلف مدلهای زبانی چندوجهی موجود تطبیق داد.

گفتگو