برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

وقتی صحبت از گذار از تولید ویدئو به درک واقعی جهان فیزیکی است، معماری مدل بسیار حیاتی‌تر از حجم داده‌هاست. اگر هدف ما رسیدن به «مدل‌های جهان» (World Models) است که واقعیت را شبیه‌سازی می‌کنند و نه صرفاً پیکسل‌ها را پیش‌بینی می‌کنند، باید بدانید که هر معماری، فیزیک را به شکل متفاوتی کدگذاری می‌کند.

بر اساس یک تحلیل فنی که در ۹ ژوئن ۲۰۲۶ منتشر شد، مدل V-JEPA در مقایسه با سایر معماری‌های پیشرو، قوی‌ترین توانایی را در ثبت قوانین فیزیکی نمایش می‌دهد. این یافته در حالی به دست آمده که صنعت در حال حرکت از تولید ساده‌ی ویدئو به سمت مدل‌هایی است که می‌توانند تعاملات واقعی اشیاء را درک کنند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی معماری‌های پیش‌بینی‌کننده اشاره کردیم، پرسش کلیدی این است که آیا این مدل‌ها واقعاً نحوه حرکت اشیاء را درونی می‌کنند یا صرفاً الگوهای بصری را تقلید می‌کنند. پژوهشگران برای جداسازی استدلال فیزیکی از نشانه‌های بصری سطحی، این مدل‌ها را روی بنچمارک‌های IntPhys2 و Minimal Video Pairs (MVP) آزمایش کردند.

طبق گزارش این مطالعه، سه پارادایم پیش‌آموزش متفاوت مورد مقایسه قرار گرفتند:

V-JEPA: یک مدل بردار معنایی (Embedding) مشترک پیش‌بین که بالاترین عملکرد کلی، به‌ویژه در مدل‌سازی دینامیک‌های زمانی، را داشت.
VideoMAE: یک مدل بازسازی ماسک‌شده (Masked Reconstruction) که در ثبت سیگنال‌های فیزیکی رقابتی باقی ماند.
LTX-Video: یک مدل انتشار (Diffusion) که سیگنال‌های فیزیکی غیربدیهی اما به‌طور قابل‌توجهی ضعیف‌تری را بازیابی کرد.

تحلیل لایه‌ای نشان داد که اطلاعات مرتبط با فیزیک در لایه‌های ابتدایی تقریباً غایب هستند و در لایه‌های میانی تا انتهایی مدل‌ها به اوج خود می‌رسند. همچنین، به‌هم‌زدن ترتیب فریم‌های ویدئو، به‌ویژه در بنچمارک MVP، عملکرد مدل‌ها را به‌شدت کاهش داد؛ این امر ثابت می‌کند که مدل‌ها برای درک علیت، به توالی زمانی وابسته‌اند.

این نتایج برای حوزه یادگیری ماشین یک فرض بنیادین را تغییر می‌دهد: تمام نمایش‌های پیش‌آموزش‌شده‌ی ویدئو یکسان نیستند. در واقع، پیش‌بینی مشترک (Predictive Joint-Embedding) برای «مدل‌سازی جهان» اساساً مناسب‌تر از بازسازی ماسک‌شده یا انتشار خالص است.

گام بعدی شما

پژوهشگران و توسعه‌دهندگان باید بررسی کنند که آیا منجمد کردن (Freezing) لایه‌های میانیِ آگاه به فیزیک، می‌تواند بهره‌وری نمونه‌برداری در وظایف کنترل رباتیک را بهبود بخشد یا خیر.
در انتظار بنچمارک‌های آتی باشید که به‌طور خاص فیزیک علی را از بافت بصری جدا می‌کنند.

اما داستان سخت‌افزاری لازم برای اجرای این مدل‌های پیش‌بین حتی پیچیده‌تر است — به تحلیل ما درباره‌ی بهینه‌سازی حافظه در استنتاج مدل‌های حجیم مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق گزارش این مطالعه، سه پارادایم پیش‌آموزش متفاوت مورد مقایسه قرار گرفتند:

V-JEPA: یک مدل بردار معنایی (Embedding) مشترک پیش‌بین که بالاترین عملکرد کلی، به‌ویژه در مدل‌سازی دینامیک‌های زمانی، را داشت.
VideoMAE: یک مدل بازسازی ماسک‌شده (Masked Reconstruction) که در ثبت سیگنال‌های فیزیکی رقابتی باقی ماند.
LTX-Video: یک مدل انتشار (Diffusion) که سیگنال‌های فیزیکی غیربدیهی اما به‌طور قابل‌توجهی ضعیف‌تری را بازیابی کرد.

گام بعدی شما

پژوهشگران و توسعه‌دهندگان باید بررسی کنند که آیا منجمد کردن (Freezing) لایه‌های میانیِ آگاه به فیزیک، می‌تواند بهره‌وری نمونه‌برداری در وظایف کنترل رباتیک را بهبود بخشد یا خیر.
در انتظار بنچمارک‌های آتی باشید که به‌طور خاص فیزیک علی را از بافت بصری جدا می‌کنند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

برتری V-JEPA در کدگذاری قوانین فیزیک: تحلیل لایه‌ای مدل‌های بنیادی ویدیو

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران