دوران تکیه بر مهندسی پرامپت برای شبیهسازی استدلال علی در مدلهای چندوجهی به پایان رسیده است. شما باید بدانید که مدلهای بصری-زبانی اکنون میتوانند منطق جهان فیزیکی را نه به صورت متنی، بلکه در سطح معماری پردازش کنند.
مدلهای چندوجهی (Multimodal) مدتهاست در مواجهه با استدلالهای علی (Causal Reasoning) شکست میخورند. همانطور که در تحلیل قبلی ما دربارهی تلاشهای Uni-E برای اصلاح تغییرات توزیع در مدلهای انتشار اشاره کردیم، همبستگیهای سطحی اغلب در بازنمایی حقیقتهای سیستمیک ناتواناند و این موضوع منجر به توهمات منطقی در مدلها میشود.
طبق گزارش منتشرشده در ۱۱ ژوئن ۲۰۲۶ در وبسایت arxiv.org، مدل BridgeVLM استدلال را از طریق استخراج یک گراف علی از ورودیهای چند-تصویری درونی میکند. این گراف سپس به توکنهای علی (Causal Tokens) ساختاریافته تبدیل شده و توسط لایههای تخصصی RAMP که در رمزگشای مدل زبانی بزرگ تزریق شدهاند، اجرا میشود تا انتقال پیامهای علی تسهیل گردد. همچنین پژوهشگران یک رابط آموزشی یکپارچه به نام M3S را برای ارائه نظارت دقیق بر سطوح محلی و جهانی پیاده کردهاند.
به نقل از مستندات فنی این پژوهش، دستاوردهای عددی این مدل خیرهکننده است:
- دقت در وظایف مداخلهای (Intervention): ۵۴.۴٪ (در مقابل ۳۳.۲٪ در مدلهای مبتنی بر پرامپت).
- بنچمارک Causal3D: بهبود از ۴۳.۶٪ به ۴۹.۰٪.
- یادگیری ساختار علی: جهش امتیاز F1 از ۳۳.۴٪ به ۷۵.۱٪.
این تحول، استدلال علی را از یک چالش مهندسی پرامپت (Prompt Engineering) به یک الزام معماری تبدیل میکند. با تبدیل استدلال از یک تکلیف زبانی به یک تکلیف اجرای ساختاری، BridgeVLM ثابت کرد که مدلها میتوانند از شناسایی الگوهای شکننده به درک واقعی خلاف-واقع (Counterfactual) حرکت کنند. این تغییر، معیار انتظارات ما از تعامل مدلهای چندوجهی با منطق جهان فیزیکی را بهطور بنیادین تغییر میدهد.
گام بعدی شما
- بررسی پیادهسازی لایههای RAMP برای بهبود استدلال در مدلهای محلی.
- تحلیل متدولوژی M3S برای نظارت دقیقتر بر خروجیهای مدلهای استدلالی.
- دنبال کردن ادغام این توکنها در سیستمهای کنترل رباتیک آنی.
ama این ادغام در سیستمهای کنترل رباتیک، مرز جدیدی است که تفاوت میان یک موفقیت عملیاتی و شکست کامل سیستم را تعیین میکند.



گفتگو