وقتی صحبت از گذار از تولید ویدئو به درک واقعی جهان فیزیکی است، معماری مدل بسیار حیاتیتر از حجم دادههاست. اگر هدف ما رسیدن به «مدلهای جهان» (World Models) است که واقعیت را شبیهسازی میکنند و نه صرفاً پیکسلها را پیشبینی میکنند، باید بدانید که هر معماری، فیزیک را به شکل متفاوتی کدگذاری میکند.
بر اساس یک تحلیل فنی که در ۹ ژوئن ۲۰۲۶ منتشر شد، مدل V-JEPA در مقایسه با سایر معماریهای پیشرو، قویترین توانایی را در ثبت قوانین فیزیکی نمایش میدهد. این یافته در حالی به دست آمده که صنعت در حال حرکت از تولید سادهی ویدئو به سمت مدلهایی است که میتوانند تعاملات واقعی اشیاء را درک کنند.
همانطور که در تحلیلهای پیشین ما دربارهی معماریهای پیشبینیکننده اشاره کردیم، پرسش کلیدی این است که آیا این مدلها واقعاً نحوه حرکت اشیاء را درونی میکنند یا صرفاً الگوهای بصری را تقلید میکنند. پژوهشگران برای جداسازی استدلال فیزیکی از نشانههای بصری سطحی، این مدلها را روی بنچمارکهای IntPhys2 و Minimal Video Pairs (MVP) آزمایش کردند.
طبق گزارش این مطالعه، سه پارادایم پیشآموزش متفاوت مورد مقایسه قرار گرفتند:
- V-JEPA: یک مدل بردار معنایی (Embedding) مشترک پیشبین که بالاترین عملکرد کلی، بهویژه در مدلسازی دینامیکهای زمانی، را داشت.
- VideoMAE: یک مدل بازسازی ماسکشده (Masked Reconstruction) که در ثبت سیگنالهای فیزیکی رقابتی باقی ماند.
- LTX-Video: یک مدل انتشار (Diffusion) که سیگنالهای فیزیکی غیربدیهی اما بهطور قابلتوجهی ضعیفتری را بازیابی کرد.
تحلیل لایهای نشان داد که اطلاعات مرتبط با فیزیک در لایههای ابتدایی تقریباً غایب هستند و در لایههای میانی تا انتهایی مدلها به اوج خود میرسند. همچنین، بههمزدن ترتیب فریمهای ویدئو، بهویژه در بنچمارک MVP، عملکرد مدلها را بهشدت کاهش داد؛ این امر ثابت میکند که مدلها برای درک علیت، به توالی زمانی وابستهاند.
این نتایج برای حوزه یادگیری ماشین یک فرض بنیادین را تغییر میدهد: تمام نمایشهای پیشآموزششدهی ویدئو یکسان نیستند. در واقع، پیشبینی مشترک (Predictive Joint-Embedding) برای «مدلسازی جهان» اساساً مناسبتر از بازسازی ماسکشده یا انتشار خالص است.
گام بعدی شما
- پژوهشگران و توسعهدهندگان باید بررسی کنند که آیا منجمد کردن (Freezing) لایههای میانیِ آگاه به فیزیک، میتواند بهرهوری نمونهبرداری در وظایف کنترل رباتیک را بهبود بخشد یا خیر.
- در انتظار بنچمارکهای آتی باشید که بهطور خاص فیزیک علی را از بافت بصری جدا میکنند.
اما داستان سختافزاری لازم برای اجرای این مدلهای پیشبین حتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازی حافظه در استنتاج مدلهای حجیم مراجعه کنید.
گفتگو