ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

تصور کنید مدل‌های زبانی بتوانند بدون یک ثانیه آموزش اضافی، محیط‌های سه‌بعدی را با دقت تحلیل کنند؛ این دقیقاً همان چیزی است که ViSRA ممکن ساخته است.

بیشتر مدل‌های زبانی چندوجهی (Multimodal LLMs) برای دستیابی به هوش فضایی، به مجموعه‌داده‌های دست‌چین‌شده متکی هستند که اغلب منجر به بیش‌برازش (Overfitting) می‌شود. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های همراستاسازی مدل‌های بصری اشاره کردیم، این رویکرد باعث می‌شود مدل در محیط‌های واقعی و خارج از بنچمارک‌ها شکست بخورد.

طبق مقاله‌ای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، چارچوب ViSRA استدلال فضایی را به یک فرآیند ماژولار و «نصب‌کردنی» (Plug-and-play) تبدیل می‌کند. به نقل از نویسندگان این پژوهش، این سیستم با ادغام اطلاعات صریح از مدل‌های خبره، نیاز به تنظیم دقیق (Fine-tuning) را به‌طور کامل حذف می‌کند. مزایای فنی این رویکرد عبارتند از:

حذف کامل هزینه‌های محاسباتی مربوط به پس-آموزش (Post-training).
عدم نیاز به جمع‌آوری و پاک‌سازی دستی مجموعه‌داده‌های استدلال فضایی.
قابلیت انتقال درک سه‌بعدی به وظایفی که مدل پیش‌تر هرگز ندیده است.

بر اساس مستندات این پژوهش، ViSRA در بنچمارک‌های موجود ۱۵.۶٪ و در وظایف سه‌بعدی کاملاً جدید، ۲۸.۹٪ برتری مطلق نسبت به مدل‌های پایه دارد.

این تغییر رویکرد، این فرض قدیمی را که هوش فضایی مستلزم داده‌های عظیم است، به چالش می‌کشد. با جداسازی مکانیسم استدلال از وزن‌های مدل، ViSRA ثابت می‌کند که استنتاج (Inference) هدایت‌شده توسط خبرگان، کارآمدتر از روش‌های سنتی است. این تحول می‌تواند سد ورود به حوزه‌ی رباتیک یا واقعیت افزوده (AR) را، جایی که تطبیق‌پذیری لحظه‌ای حیاتی است، به‌شدت کاهش دهد.

گام بعدی شما

بررسی مقاله اصلی در arxiv برای درک نحوه اتصال مدل‌های خبره به MLLM.
آزمایش مدل‌های چندوجهی فعلی در محیط‌های سه‌بعدی برای شناسایی نقاط شکست در استدلال فضایی.
رصد توسعه‌ی این رویکرد برای کاربردهای ناوبری در محیط‌های پویا.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

حذف کامل هزینه‌های محاسباتی مربوط به پس-آموزش (Post-training).
عدم نیاز به جمع‌آوری و پاک‌سازی دستی مجموعه‌داده‌های استدلال فضایی.
قابلیت انتقال درک سه‌بعدی به وظایفی که مدل پیش‌تر هرگز ندیده است.

گام بعدی شما

بررسی مقاله اصلی در arxiv برای درک نحوه اتصال مدل‌های خبره به MLLM.
آزمایش مدل‌های چندوجهی فعلی در محیط‌های سه‌بعدی برای شناسایی نقاط شکست در استدلال فضایی.
رصد توسعه‌ی این رویکرد برای کاربردهای ناوبری در محیط‌های پویا.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ViSRA: افزایش ۲۸.۹ درصدی دقت استدلال فضایی در مدل‌های زبانی بدون آموزش مجدد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران