یک تیم پژوهشی چارچوب جدیدی به نام ARGen معرفی کرده است که هدف آن بهبود تشخیص حالات چهره در شرایط واقعی است. این چارچوب مولد دو چالش مهم در درک احساسات مبتنی بر بینایی را هدف قرار داده است: کمبود داده و توزیع نامتوازن حالات عاطفی.
عملکرد ARGen در دو مرحله مجزا انجام میشود. در مرحله نخست که «تزریق معنای عاطفی» نامیده شده، همترازسازی دانش عاطفی با استفاده از واحدهای کنش چهره صورت میگیرد و از یک استراتژی تولید پرسش تقویتشده با بازیابی بهره گرفته میشود. این مرحله از مدلهای بزرگ بصری-زبانی برای ترکیب توصیفات عاطفی ظریف و سازگار استفاده میکند و به این ترتیب، دانش پیشین عاطفی قابل تفسیر را در فرآیند تولید تزریق مینماید. در مرحله دوم موسوم به «انتشار تقویتی تطبیقی»، تصویر به ویدیوی مبتنی بر انتشار شرطیشده با متن با تکنیکهای یادگیری تقویتی ترکیب میشود. این مرحله شامل هدایت بینفریمی شرطی و یک تابع پاداش چندهدفه است که سه جنبه کلیدی را بهینهسازی میکند: طبیعی بودن بیان، یکپارچگی چهره و کارایی تولید.
اهمیت این پژوهش در پتانسیل آن برای پیشبرد کاربردهای محاسبات عاطفی است که به درک پویایی زمانی حالات چهره وابسته هستند. مدلهای سنتی اغلب در مواجهه با بیانهای احساسی نادر به دلیل دادههای آموزشی محدود دچار مشکل میشوند. ARGen با تولید بیانهای پویای مصنوعی اما واقعگرایانه، میتواند سیستمهای تشخیص احساسات مقاومتری را ممکن سازد که در طیف وسیعتری از حالات عاطفی عملکرد بهتری دارند.
نتایج آزمایشی روی هر دو وظیفه تولید و تشخیص نشان میدهد که ARGen به طور قابل توجهی کیفیت سنتز را افزایش داده و عملکرد تشخیص را بهبود میبخشد. پژوهشگران ادعا میکنند این چارچوب یک الگوی مولد تفسیرپذیر و تعمیمپذیر برای محاسبات عاطفی بینایی ایجاد کرده است.
این پژوهش در تاریخ ۱۴ آوریل ۲۰۲۶ توسط هوانژن وانگ در arxiv.org منتشر شده و در دسته «صنعت» طبقهبندی شده است. اگرچه رویکرد فنی این روش برای کاربردهای عملی امیدوارکننده به نظر میرسد، فرآیند داوری همتا و معیارسنجی مستقل برای اعتبارسنجی این ادعاها در جامعه پژوهشی ضروری خواهد بود.

گفتگو