اگر هنوز برای حفظ هویت سوژه در ویدیوهای هوش مصنوعی زاینده (Generative AI) به یک تصویر مرجع تکیه میکنید، با یک بنبست فنی روبرو هستید. باید بدانید که صرفاً افزایش رزولوشن یا شباهت تک-فریم نتایج را تضمین نمیکند و شما با مشکل «لغزش هویت» (Identity Drift) در مواجهه با تغییرات زاویه دید روبرو خواهید بود.
این مشکل از پارادایم «مرجع نقطهای» نشأت میگیرد؛ جایی که هویت سوژه با یک ژست یا نورپردازی خاص در یک تصویر گره میخورد. همانطور که در پوشش پیشین ما از مدلهای انتشار (Diffusion Models) دیدیم، مدلها در بازسازی چهره هنگام چرخش سر یا پوشانده شدن بخشی از صورت شکست میخورند. برای حل این چالش، پژوهشگران در ۱۱ ژوئن ۲۰۲۶ تحلیل فنی جدیدی را منتشر کردند که در آن هویت را نه به صورت یک نقطه، بلکه به عنوان یک «توزیع پویا» تعریف میکنند.
چارچوب Argus که بر پایه مدل Wan توسعه یافته است، از مکانیزم تزریق موزاییک هویت چندوجهی پشتهسازیشده (SMII) استفاده میکند. به نقل از گزارش arxiv.org، این سیستم شواهد هویتی انتخابشده توسط یک MLLM را به یک موزاییک ۳x۳ تبدیل کرده و آن را به عنوان حافظه فقط-خواندنی در فضای توکن بومی Wan تزریق میکند. اجزای کلیدی این معماری عبارتاند از:
- مدیر هویت MLLM: انتخاب لحظات کلیدی هویت و رفع تضادهای شرطی.
- پایینآوری زمانی هویت (Temporal Identity Annealing): افزایش پایداری بدون نیاز به نظارت مستقیم روی ویدیوهای جفتشده.
- هدایت خود-شباهت تطبیقی: پالایش دقت تطبیق هویت در طول فرآیند انتشار.
بر اساس مستندات منتشرشده، Argus در بنچمارک OpenS2V-Eval به امتیاز کل ۶۴.۳۸ رسید. همچنین در تست استرس HardID-Celeb، امتیاز FaceSim آن به ۷۶.۸۰ رسید و نمرات YawScore و OccScore را به ترتیب ۱۲.۶۰ و ۱۵.۱۰ واحد نسبت به قویترین مدلهای پایه بهبود بخشید.
این تغییر رویکرد از «آداپتورهای تمیز خارجی» به «تزریق حافظه پویا»، فرض بنیادین در حفظ سوژه را تغییر میدهد. Argus ثابت میکند که برای دستیابی به حرکت باورپذیر، سازگاری چندوجهی بسیار حیاتیتر از شباهت تک-فریم با رزولوشن بالاست.
گام بعدی شما
- بررسی دیتاست HardID-Celeb برای ارزیابی استرس-تست مدلهای تولید ویدیو.
- تحلیل تاثیر تزریق حافظه (Memory Injection) در مقابل Fine-tuning برای حفظ ویژگیهای بصری.
- دنبال کردن پیادهسازیهای مشابه در مدلهای بازمتن برای کاهش وابستگی به سختافزار.
اما این پیشرفت تنها بخشی از ماجراست؛ بررسی اینکه چگونه این معماری با حافظههای گرافیکی نسل بعد سازگار میشود، در تحلیل ما درباره تراشههای Blackwell ادامه دارد.



گفتگو