روشی بدون آموزش مجدد برای کاهش توهم در مدل‌های زبانی چندوجهی

پژوهشگران یک تیم دانشگاهی رویکردی نوین برای مقابله با یکی از چالش‌برانگیزترین مشکلات هوش مصنوعی ارائه کرده‌اند: پدیده توهم در مدل‌های زبانی بزرگ چندوجهی (MLLM). روش مذکور که «رمزگشایی از طریق اختلال» (DeP) نامیده شده، راهکاری بدون نیاز به آموزش مجدد فراهم می‌کند که ریشه توهمات را در فرآیند رمزگشایی مدل هدف قرار می‌دهد.

مشکل اصلی که پژوهشگران شناسایی کرده‌اند این است که مدل‌های زبانی چندوجهی اغلب دچار توهمات استنتاجی می‌شوند، زیرا پیش‌فرض‌های زبانی تمایل دارند بر شواهد بصری غلبه یابند. رویکردهای موجود برای کاهش این مشکل معایب قابل توجهی دارند: برخی بازنمایی‌های بصری را به شیوه‌ای تغییر می‌دهند که از توزیع طبیعی تصاویر خارج می‌شود، و برخی دیگر دستکاری‌های تهاجمی اعمال می‌کنند که روانی تولیدی ذاتی مدل را مختل می‌سازد.

چارچوب DeP نگاهی تازه به مسئله ارائه می‌دهد و توهم چندوجهی را به‌عنوان حساسیت بیش از حد زمین‌گذاری بصری نسبت به عبارات متنی در هنگام رمزگشایی تعریف می‌کند. DeP به جای تغییر ورودی‌های بصری یا نیاز به آموزش مجدد مدل، از یک پروب پویا استفاده می‌کند که اختلالات متنی چندسطحی را برای استخراج پیش‌فرض‌های زبانی نهفته به‌کار می‌برد. این سیستم از واریانس توجه برای تقویت مناطق شواهد پایدار در فضای ویژگی و سرکوب نویز مشکوک بهره می‌برد. علاوه بر این، جهت انحراف تفسیرپذیر پیش‌فرض را با استفاده از آمار لاگ‌ها (logits) می‌سازد تا سوگیری‌های احتمال ناشی از همرخدادی‌های متنی را خنثی کند.

این رویکرد نمایانگر تغییر مسیر قابل توجهی نسبت به کارهای پیشین در این حوزه است. تلاش‌های اخیر مانند روش Lightning OPD که امکان آموزش سریع‌تر مدل‌های زبانی بدون سرور معلم زنده را فراهم می‌کند، بر بهره‌وری آموزش تمرکز داشته‌اند، در حالی که DeP به‌طور مشخص کاهش توهم در زمان استنتاج را از طریق مداخله متنی هدف قرار می‌دهد.

پژوهشگران صحت عملکرد DeP را از طریق آزمایش‌های گسترده در معیارهای (benchmark) متعدد تأیید کرده‌اند و نشان داده‌اند که این روش به‌طور مؤثر توهمات را کاهش می‌دهد و در عین حال عملکرد برتری نسبت به روش‌های موجود بدون نیاز به آموزش مجدد ارائه می‌دهد. این پژوهش توسط سیهانگ جیا و تیمش انجام شده و به‌صورت پیش‌چاپ در arxiv.org در دسترس است.

پیامدهای این کار برای جامعه هوش مصنوعی قابل توجه است. با افزایش ادغام سیستم‌های هوش مصنوعی چندوجهی در کاربردهای واقعی، از درک تصویر تا تحلیل اسناد، کاهش توهمات بدون نیاز به آموزش مجدد مدل یا تغییرات معماری می‌تواند استقرار سیستم‌های قابل اعتمادتر را تسریع کند. ماهیت بدون نیاز به آموزش DeP به این معناست که می‌توان آن را بدون تغییرات گسترده برای پیاده‌سازی‌های مختلف مدل‌های زبانی چندوجهی موجود تطبیق داد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روشی بدون آموزش مجدد برای کاهش توهم در مدل‌های زبانی چندوجهی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روشی بدون آموزش مجدد برای کاهش توهم در مدل‌های زبانی چندوجهی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روشی بدون آموزش مجدد برای کاهش توهم در مدل‌های زبانی چندوجهی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روشی بدون آموزش مجدد برای کاهش توهم در مدل‌های زبانی چندوجهی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران