تیمی پژوهشی مجموعه داده DecompSR را منتشر کرد؛ ابزاری جامع برای ارزیابی قابلیتهای استدلال فضایی ترکیبی در مدلهای زبانی بزرگ (LLMs). این مجموعه داده شامل بیش از ۵ میلیون نمونه است و چارچوبی نوین برای تحلیل دقیق عملکرد مدلها ارائه میدهد.
این چارچوب به پژوهشگران امکان میدهد چهار بُعد کلیدی ترکیبپذیری را بهطور مستقل بررسی کنند. بهرهوری (Productivity) عمق استدلال را میسنجد و بررسی میکند مدلها چگونه زنجیرههای پیچیدهتر استنتاج فضایی را مدیریت میکنند. جانشینپذیری (Substitutivity) تغییرپذیری موجودیتها و زبان را ارزیابی میکند. فراغ-generaliyation (Overgeneralisation) آسیبپذیری نسبت به ترتیب ورودی و اطلاعات مزاحم را میآزماید. و منظمی (Systematicity) توانایی مدیریت عناصر زبانی جدید در بسترهای آشنا را بررسی میکند.
{{img:0}}
مجموعه داده بهصورت رویهای ساخته شده و صحت آن توسط حلکننده نمادین مستقل تضمین شده است. این رویکرد چالش رایج در معیارسنجی هوش مصنوعی را برطرف میکند؛ جایی که حقیقت مبنا ممکن است خود حاوی خطا باشد.
آزمون چندین مدل زبانی بزرگ الگوهای ضعفی یکسان آشکار کرد. این مدلها در تعمیمدهی مولد (productive generalization) دچار مشکل جدی بودند؛ یعنی نتوانستند تواناییهای استدلالی خود را به مسائل فضایی جدید و پیچیدهتر گسترش دهند. تعمیمدهی منظم (systematic generalization) نیز دشوار بود و مدلها اغلب قادر به بهکارگیری مفاهیم فضایی آموختهشده در فرمولبندیهای زبانی تازه نبودند. نکته جالب اینکه مدلها در برابر تغییرات زبانی انعطافپذیری بیشتری نشان دادند.
این یافتهها پیامدهای مهمی برای توسعه هوش مصنوعی دارد. استدلال فضایی در بسیاری از کاربردهای واقعی بنیادین است: از رباتیک و ناوبری گرفته تا تفسیر تصاویر پزشکی و خودروهای خودران. اگر مدلهای پیشروی فعلی ضعفهای منظمی در این حوزه نشان میدهند، توسعهدهندگان باید هدفمند آموزش و معماری خود را بازنگری کنند.

گفتگو