مجموعه داده DecompSR: ناتوانی مدل‌های زبانی بزرگ در استدلال فضایی ترکیبی

تیمی پژوهشی مجموعه داده DecompSR را منتشر کرد؛ ابزاری جامع برای ارزیابی قابلیت‌های استدلال فضایی ترکیبی در مدل‌های زبانی بزرگ (LLMs). این مجموعه داده شامل بیش از ۵ میلیون نمونه است و چارچوبی نوین برای تحلیل دقیق عملکرد مدل‌ها ارائه می‌دهد.

این چارچوب به پژوهشگران امکان می‌دهد چهار بُعد کلیدی ترکیب‌پذیری را به‌طور مستقل بررسی کنند. بهره‌وری (Productivity) عمق استدلال را می‌سنجد و بررسی می‌کند مدل‌ها چگونه زنجیره‌های پیچیده‌تر استنتاج فضایی را مدیریت می‌کنند. جانشین‌پذیری (Substitutivity) تغییرپذیری موجودیت‌ها و زبان را ارزیابی می‌کند. فراغ-generaliyation (Overgeneralisation) آسیب‌پذیری نسبت به ترتیب ورودی و اطلاعات مزاحم را می‌آزماید. و منظمی (Systematicity) توانایی مدیریت عناصر زبانی جدید در بسترهای آشنا را بررسی می‌کند.

مجموعه داده به‌صورت رویه‌ای ساخته شده و صحت آن توسط حل‌کننده نمادین مستقل تضمین شده است. این رویکرد چالش رایج در معیارسنجی هوش مصنوعی را برطرف می‌کند؛ جایی که حقیقت مبنا ممکن است خود حاوی خطا باشد.

آزمون چندین مدل زبانی بزرگ الگوهای ضعفی یکسان آشکار کرد. این مدل‌ها در تعمیم‌دهی مولد (productive generalization) دچار مشکل جدی بودند؛ یعنی نتوانستند توانایی‌های استدلالی خود را به مسائل فضایی جدید و پیچیده‌تر گسترش دهند. تعمیم‌دهی منظم (systematic generalization) نیز دشوار بود و مدل‌ها اغلب قادر به به‌کارگیری مفاهیم فضایی آموخته‌شده در فرمول‌بندی‌های زبانی تازه نبودند. نکته جالب اینکه مدل‌ها در برابر تغییرات زبانی انعطاف‌پذیری بیشتری نشان دادند.

این یافته‌ها پیامدهای مهمی برای توسعه هوش مصنوعی دارد. استدلال فضایی در بسیاری از کاربردهای واقعی بنیادین است: از رباتیک و ناوبری گرفته تا تفسیر تصاویر پزشکی و خودروهای خودران. اگر مدل‌های پیشروی فعلی ضعف‌های منظمی در این حوزه نشان می‌دهند، توسعه‌دهندگان باید هدفمند آموزش و معماری خود را بازنگری کنند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مجموعه داده DecompSR: ناتوانی مدل‌های زبانی بزرگ در استدلال فضایی ترکیبی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مجموعه داده DecompSR: ناتوانی مدل‌های زبانی بزرگ در استدلال فضایی ترکیبی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مجموعه داده DecompSR: ناتوانی مدل‌های زبانی بزرگ در استدلال فضایی ترکیبی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مجموعه داده DecompSR: ناتوانی مدل‌های زبانی بزرگ در استدلال فضایی ترکیبی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران