BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

دوران تکیه بر مهندسی پرامپت برای شبیه‌سازی استدلال علی در مدل‌های چندوجهی به پایان رسیده است. شما باید بدانید که مدل‌های بصری-زبانی اکنون می‌توانند منطق جهان فیزیکی را نه به صورت متنی، بلکه در سطح معماری پردازش کنند.

مدل‌های چندوجهی (Multimodal) مدت‌هاست در مواجهه با استدلال‌های علی (Causal Reasoning) شکست می‌خورند. همان‌طور که در تحلیل قبلی ما درباره‌ی تلاش‌های Uni-E برای اصلاح تغییرات توزیع در مدل‌های انتشار اشاره کردیم، همبستگی‌های سطحی اغلب در بازنمایی حقیقت‌های سیستمیک ناتوان‌اند و این موضوع منجر به توهمات منطقی در مدل‌ها می‌شود.

طبق گزارش منتشرشده در ۱۱ ژوئن ۲۰۲۶ در وب‌سایت arxiv.org، مدل BridgeVLM استدلال را از طریق استخراج یک گراف علی از ورودی‌های چند-تصویری درونی می‌کند. این گراف سپس به توکن‌های علی (Causal Tokens) ساختاریافته تبدیل شده و توسط لایه‌های تخصصی RAMP که در رمزگشای مدل زبانی بزرگ تزریق شده‌اند، اجرا می‌شود تا انتقال پیام‌های علی تسهیل گردد. همچنین پژوهشگران یک رابط آموزشی یکپارچه به نام M3S را برای ارائه نظارت دقیق بر سطوح محلی و جهانی پیاده کرده‌اند.

به نقل از مستندات فنی این پژوهش، دستاوردهای عددی این مدل خیره‌کننده است:

دقت در وظایف مداخله‌ای (Intervention): ۵۴.۴٪ (در مقابل ۳۳.۲٪ در مدل‌های مبتنی بر پرامپت).
بنچمارک Causal3D: بهبود از ۴۳.۶٪ به ۴۹.۰٪.
یادگیری ساختار علی: جهش امتیاز F1 از ۳۳.۴٪ به ۷۵.۱٪.

این تحول، استدلال علی را از یک چالش مهندسی پرامپت (Prompt Engineering) به یک الزام معماری تبدیل می‌کند. با تبدیل استدلال از یک تکلیف زبانی به یک تکلیف اجرای ساختاری، BridgeVLM ثابت کرد که مدل‌ها می‌توانند از شناسایی الگوهای شکننده به درک واقعی خلاف-واقع (Counterfactual) حرکت کنند. این تغییر، معیار انتظارات ما از تعامل مدل‌های چندوجهی با منطق جهان فیزیکی را به‌طور بنیادین تغییر می‌دهد.

گام بعدی شما

بررسی پیاده‌سازی لایه‌های RAMP برای بهبود استدلال در مدل‌های محلی.
تحلیل متدولوژی M3S برای نظارت دقیق‌تر بر خروجی‌های مدل‌های استدلالی.
دنبال کردن ادغام این توکن‌ها در سیستم‌های کنترل رباتیک آنی.

ama این ادغام در سیستم‌های کنترل رباتیک، مرز جدیدی است که تفاوت میان یک موفقیت عملیاتی و شکست کامل سیستم را تعیین می‌کند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به نقل از مستندات فنی این پژوهش، دستاوردهای عددی این مدل خیره‌کننده است:

دقت در وظایف مداخله‌ای (Intervention): ۵۴.۴٪ (در مقابل ۳۳.۲٪ در مدل‌های مبتنی بر پرامپت).
بنچمارک Causal3D: بهبود از ۴۳.۶٪ به ۴۹.۰٪.
یادگیری ساختار علی: جهش امتیاز F1 از ۳۳.۴٪ به ۷۵.۱٪.

گام بعدی شما

بررسی پیاده‌سازی لایه‌های RAMP برای بهبود استدلال در مدل‌های محلی.
تحلیل متدولوژی M3S برای نظارت دقیق‌تر بر خروجی‌های مدل‌های استدلالی.
دنبال کردن ادغام این توکن‌ها در سیستم‌های کنترل رباتیک آنی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

BridgeVLM و توکن‌های علی: ارتقای دقت وظایف مداخله‌ای به ۵۴.۴٪

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران