درک پویایی دوربین برای هوش فضایی ویدئو از اهمیت بالایی برخوردار است. مدلهای چندوجهی موجود معمولاً این موضوع را بهعنوان دستهبندی جعبهسیاه treats میکنند و اغلب حرکات متمایز را با تکیه بر الگوهای بصری سطحی بهجای استدلال هندسی با یکدیگر اشتباه میگیرند. کمریزنر این چالش را با بازتعریف درک حرکت دوربین بهعنوان استنتاج ساختاریافته برطرف میکند و پلی بین ادراک و منطق سینمایی ایجاد مینماید.
این چارچوب بر پارادایم مشاهده-تفکر-پاسخ (O-T-A) تمرکز دارد که از مدلها میخواهد مشاهدات فضا-زمانی را بیان کنند و درباره الگوهای حرکتی درون بلوکهای استدلال صریح استدلال نمایند. برای آموزش این قابلیت، پژوهشگران مجموعه بزرگمقیاس مسیر استنتاج را با ۱۸۰۰۰ زنجیره استدلالی fine-tuning تحت نظارت و ۳۸۰۰۰ نمونه بازخورد یادگیری تقویتی construction کردند.
این نخستین کاربرد یادگیری تقویتی برای هممحوری منطقی در درک حرکت دوربین محسوب میشود که تضمین میکند استنتاجهای حرکتی در استدلال بصری ساختاریافته ریشه دارد نه در حدسوگمان متنی. کمریزنر-7B که بر پایه Qwen2.5-VL-7B ساخته شده، به دقت دستهبندی دودویی ۷۸.۴٪ (افزایش از ۷۳.۸٪) و دقت VQA ۷۴.۵٪ (افزایش از ۶۰.۹٪) دست مییابد و بهطور مداوم از خطوط پایه اختصاصی و متنباز در معیارهای متعدد پیشی میگیرد.
این رویکرد، درک حرکت دوربین را از یک کار دستهبندی جعبهسیاه به فرآیند استنتاج قابلتفسیر تبدیل میکند و به مدلها امکان میدهد بهصورت صریح درباره روابط فضایی و پویایی حرکت استدلال نمایند نه صرفاً تطبیق الگوی ویژگیهای بصری.

گفتگو