تحقیقات جدید نشان میدهد که مدلهای زبانی بزرگ ویدیویی گاهی محتوایی تولید میکنند که در ظاهر معقول به نظر میرسد اما با اطلاعات واقعی ویدیوها همخوانی ندارد. این پدیده که به «توهم» معروف است، چالشی جدی برای اعتمادپذیری سیستمهای هوش مصنوعی محسوب میشود.
این مطالعه با ایجاد یک طبقهبندی نظاممند، توهمها را به دو نوع اصلی تقسیم کرده است: تحریف پویا و ساخت محتوای جعلی. هر کدام از این دستهها زیرمجموعهها و نمونههای مشخصی دارند که به درک بهتر ماهیت این مشکل کمک میکنند.
پژوهشگران همچنین ریشههای اصلی این توهمها را شناسایی کردهاند. نخست، محدودیتهای موجود در توانایی نمایش زمانی این مدلهاست؛ به این معنا که سیستمها در درک صحیح توالی رویدادها در طول زمان با مشکل مواجهاند. دوم، مکانیزمهای ناکافی مکانییابی بصری است که باعث میشود مدلها نتوانند به درستی ارتباط بین محتوای بصری و توصیفات زبانی را برقرار کنند.
برای مقابله با این چالشها، محققان رویکردهای امیدبخشی را مطرح کردهاند. توسعه رمزگذارهای بصری آگاه از حرکت میتواند به مدلها کمک کند تا پویایی موجود در ویدیوها را بهتر درک کنند. همچنین، بهکارگیری تکنیکهای یادگیری ضدواقعی میتواند توانایی سیستم در تمایز بین محتوای واقعی و ساختگی را تقویت کند.
این یافتهها با یکپارچهسازی پراکندهگوییهای تحقیقاتی در این حوزه نوظهور، درکی نظاممند از توهم در مدلهای زبانی ویدیویی ارائه میدهد و زیربنایی برای ساخت سیستمهای قابل اعتمادتر فراهم میکند.

گفتگو