تصور کنید رباتی طراحی میکنید که باید یک لیوان در حال حرکت را از روی میز بردارد؛ بزرگترین چالش شما این است که مدل فقط ببیند چه اتفاقی افتاده، نه اینکه پیشبینی کند چه اتفاقی خواهد افتاد. در ۱۷ ژوئن ۲۰۲۶، AllenAI با معرفی MolmoMotion این شکاف را پر کرد تا ماشینها بتوانند مسیر حرکت نقاط سهبعدی یک شیء را برای چند ثانیه آینده پیشبینی کنند.
بیشتر مدلهای فعلی بازنگرانه هستند، یعنی فقط آنچه رخ داده را رصد میکنند. MolmoMotion رویکرد را به «آیندهنگری» تغییر میدهد. این قابلیت برای رباتیک حیاتی است؛ زیرا بازوی ربات باید مسیر آینده شیء را بداند تا عملیات برداشت و جابهجایی (Pick-and-Place) را با موفقیت انجام دهد. همانطور که در تحلیلهای قبلی ما دربارهی مدلهای بینایی-زبانی اشاره کردیم، ادغام درک بصری با پیشبینی زمانی، مرز جدید تعامل ماشین با جهان فیزیکی است.
به نقل از گزارش فنی Hugging Face، این سیستم از ساختار Molmo 2 برای پیوند دادن دستورات زبانی به نقاط خاص در تصویر استفاده میکند. این مدل در دو نسخه عرضه شده است:
- MolmoMotion-AR: نسخهای خودبازگشتی (Autoregressive) — شبیه نویسندهای که کلمه به کلمه داستان را پیش میبرد — که مختصات را به صورت متن ساختاریافته برای مسیرهای نرم پیشبینی میکند.
- MolmoMotion-FM: نسخهای مبتنی بر تطبیق جریان (Flow-matching) که در مواجهه با مسیرهای احتمالی متعدد، عدم قطعیت را مدیریت میکند.

برای آموزش، تیم سازنده مجموعه داده MolmoMotion-1M را ایجاد کرد؛ مجموعهای شامل ۱.۱۶ میلیون ویدیو با ۷۳۶ نوع حرکت روی ۵.۶ هزار شیء مختلف. همچنین یک محک (Benchmark) اعتبارسنجیشده توسط انسان به نام PointMotionBench منتشر شد. بر اساس مستندات این پروژه، MolmoMotion در تمام روشهای پیشبینی سهبعدی فعلی، از جمله تولیدکنندههای فضای پیکسلی، برنده شده است.


این تغییر در نمایش — یعنی استفاده از نقاط سهبعدی متصل به شیء به جای رندر کامل ویدیو — باعث میشود مدل مستقل از نوع شیء و زاویه دید باشد. برای یک توسعهدهنده، این یعنی منطق جابهجایی یک درپوش، همان منطق پیچیدن یک خودرو در گوشه خیابان است. در شبیهسازیها، این روش نرخ موفقیت عملیات برداشت و جابهجایی را از ۵۶.۰٪ در مدل پایه به ۷۶.۳٪ رساند.

فراتر از رباتیک، این مدل مانند یک فرمان دقیق برای تولید ویدیو عمل میکند. با تزریق مسیرهای MolmoMotion به یک مدل مولد، ویدیوهای خروجی از حرکات دقیق نقطه A به B پیروی میکنند؛ چیزی که پرامپتهای متنی معمولاً در توصیف آن بیش از حد مبهم هستند.
گام بعدی شما
- وزنهای مدل و مجموعه داده MolmoMotion-1M را در Hugging Face بررسی کنید تا پیشبینی حرکت را در خط لولههای تولید ویدیو یا سیاستهای رباتیک خود پیاده کنید.
- مدل AR را برای مسیرهای قطعی و مدل FM را برای محیطهای با عدم قطعیت بالا تست کنید.
- دقت مدل را در سناریوهای پیچیده لایهبندی شده با PointMotionBench بسنجید.
اما تأثیر این دقت در تبدیل متن به ویدیو تنها بخشی از ماجراست؛ برای درک چگونگی ادغام این مسیرها با مدلهای انتشار، به تحلیل ما دربارهی معماریهای جدید Generative Video مراجعه کنید.

گفتگو