کمریزنر درک حرکت دوربین را با استدلال ساختاریافته بهبود می‌بخشد

درک پویایی دوربین برای هوش فضایی ویدئو از اهمیت بالایی برخوردار است. مدل‌های چندوجهی موجود معمولاً این موضوع را به‌عنوان دسته‌بندی جعبه‌سیاه treats می‌کنند و اغلب حرکات متمایز را با تکیه بر الگوهای بصری سطحی به‌جای استدلال هندسی با یکدیگر اشتباه می‌گیرند. کمریزنر این چالش را با بازتعریف درک حرکت دوربین به‌عنوان استنتاج ساختاریافته برطرف می‌کند و پلی بین ادراک و منطق سینمایی ایجاد می‌نماید.

این چارچوب بر پارادایم مشاهده-تفکر-پاسخ (O-T-A) تمرکز دارد که از مدل‌ها می‌خواهد مشاهدات فضا-زمانی را بیان کنند و درباره الگوهای حرکتی درون بلوک‌های استدلال صریح استدلال نمایند. برای آموزش این قابلیت، پژوهشگران مجموعه بزرگ‌مقیاس مسیر استنتاج را با ۱۸۰۰۰ زنجیره استدلالی fine-tuning تحت نظارت و ۳۸۰۰۰ نمونه بازخورد یادگیری تقویتی construction کردند.

این نخستین کاربرد یادگیری تقویتی برای هم‌محوری منطقی در درک حرکت دوربین محسوب می‌شود که تضمین می‌کند استنتاج‌های حرکتی در استدلال بصری ساختاریافته ریشه دارد نه در حدس‌وگمان متنی. کمریزنر-7B که بر پایه Qwen2.5-VL-7B ساخته شده، به دقت دسته‌بندی دودویی ۷۸.۴٪ (افزایش از ۷۳.۸٪) و دقت VQA ۷۴.۵٪ (افزایش از ۶۰.۹٪) دست می‌یابد و به‌طور مداوم از خطوط پایه اختصاصی و متن‌باز در معیارهای متعدد پیشی می‌گیرد.

این رویکرد، درک حرکت دوربین را از یک کار دسته‌بندی جعبه‌سیاه به فرآیند استنتاج قابل‌تفسیر تبدیل می‌کند و به مدل‌ها امکان می‌دهد به‌صورت صریح درباره روابط فضایی و پویایی حرکت استدلال نمایند نه صرفاً تطبیق الگوی ویژگی‌های بصری.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

کمریزنر درک حرکت دوربین را با استدلال ساختاریافته بهبود می‌بخشد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کمریزنر درک حرکت دوربین را با استدلال ساختاریافته بهبود می‌بخشد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کمریزنر درک حرکت دوربین را با استدلال ساختاریافته بهبود می‌بخشد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کمریزنر درک حرکت دوربین را با استدلال ساختاریافته بهبود می‌بخشد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران