شخصیتهای AI شما در واقع کور هستند. آنها شاید لحن شما را تقلید کنند، اما هیچ درکی از فضای اطراف خود ندارند.
در ۷ مه ۲۰۲۶، پژوهشگران مقالهای در arxiv.org منتشر کردند که چارچوب EBM-RL (Eye-Brain-Mouth Reinforcement Learning) را معرفی میکند. طبق گزارش پژوهشگران، این مدل با تفکیک فرآیند پردازش به سه مرحلهی مشاهده (ادراک)، استدلال (تفکر) و بیان (پاسخ)، توانسته است عملکرد مدلهای چندوجهی (Multimodal) بزرگ را در نقشآفرینیهای ویدئویی به چالش بکشد.
به نقل از مستندات arxiv.org، این سیستم از معماری مبتنی بر GRPO استفاده میکند که توسط چهار پاداش مکمل هدایت میشود تا دقت نقشآفرینی را تضمین کند:
- همراستاسازی متن و صحنه بر اساس CLIP برای ثبت اتمسفر و احساسات.
- پاداش ادراکی-شناختی برای بهینهسازی مراحل «مشاهده» و «تفکر» جهت پیشبینی پاسخهای مرجع.
- دقت پاسخ برای حفظ وفاداری به شخصیت.
- پاداش فرمت متراکم برای اجبار به خروجی ساختاریافته.
همانطور که در تحلیل قبلی ما دربارهی همراستاسازی (Alignment) مدلهای استدلالی اشاره کردیم، تفکیک مراحل تفکر از پاسخ، کلید کاهش توهمات است. EBM-RL حالا این رویکرد را به دنیای بصری آورده است.
این رویکرد ماژولار اجازه میدهد تا مدل در بنچمارکهای نقشآفرینی غوطهور، بهطور قابلتوجهی از مدلهای متنی و حتی مدلهای بینایی-زبانی بزرگتر پیشی بگیرد. بر اساس بررسی منابع متعدد، این مدل نه تنها در سازگاری با اتمسفر بصری موفق است، بلکه اصالت شخصیت را نیز حفظ میکند.
فراتر از گیمینگ، این چارچوب در بنچمارکهای VideoQA نیز بدون نیاز به تنظیم دقیق (Fine-tuning)، عملکرد خیرهکنندهای داشته است. تیم سازنده برای حمایت از جامعهی متنباز، یک دیتاست تخصصی برای دیالوگهای نقشآفرینی مبتنی بر ویدئو منتشر کرده است.
اما این تنها بخشی از پازل است؛ تأثیر این معماری بر آیندهی بازیهای VR را در گزارش بعدی بررسی میکنیم.
گام بعدی شما
- بررسی دیتاست متنباز منتشر شده برای نقشآفرینی ویدئومحور.
- مطالعهی معماری GRPO برای درک نحوه بهینهسازی پاداشها در هوش مصنوعی زاینده (Generative AI).
- تست مدلهای چندوجهی در بنچمارکهای VideoQA برای ارزیابی توانایی مبنیسازی (Grounding) آنها.
گفتگو