رابط کد-محور در برابر فراخوانی صلب ابزار در مدل‌های بینایی-زبانی

گلوگاه استدلال مکانی در مدل‌های بینایی-زبانی (VLMs)، نه در هوش مدل، بلکه در رابطه‌ای است که برای اقدام استفاده می‌کند. NVIDIA Research با معرفی SpatialClaw، یک چارچوب بدون نیاز به آموزش (Training-free)، فراخوانی‌های سخت JSON را با یک هسته پایتونی پویا و دارای وضعیت (Stateful) جایگزین کرد تا عامل‌ها بتوانند کد را به‌عنوان رابط اصلی اقدام خود ببینند.

این پیشرفت، وصله‌ای حیاتی برای مدل‌هایی است که به‌طور تاریخی در تشخیص روابط سه‌بعدی اشیاء و تحلیل حرکت آن‌ها در طول زمان مشکل داشتند. با تکیه بر پوشش قبلی ما درباره اینکه چگونه مدل Gemma3-4B از طریق تفکر مبتنی بر بینایی با مدل‌های بزرگتر رقابت کرد، SpatialClaw نشان می‌دهد که نحوه تعامل یک عامل با ابزارهای ادراکی به اندازه خودِ مبنی‌سازی (Grounding) اهمیت دارد. این رویکرد تکامل‌یافته برای بهبود درک محیطی است که پیش‌تر در چارچوب AlloSpatial با تغییر نگاه از دوربین به نقشه مورد بررسی قرار گرفته بود تا دقت استدلال مکانی افزایش یابد. برای توسعه‌دهندگان، این تغییر شبیه انتقال از یک منوی محدود و ثابت از دستورات به یک محیط توسعه یکپارچه (IDE) کامل است که در آن هوش مصنوعی می‌تواند منطق هندسی خود را بنویسد، اجرا کند و در صورت بروز خطا، آن را اشکال‌زدایی نماید.

به نقل از مقاله پژوهشی منتشرشده در spatialclaw.github.io، این چارچوب به‌عنوان یک حلقه عامل (Agent Loop) عمل می‌کند که در اطراف یک هسته Jupyter دائمی بسته‌بندی شده است. این سیستم اساساً «بدون نیاز به آموزش» است؛ به این معنا که همان پرامپت‌ها و ابرپارامترها (Hyperparameters) بدون نیاز به تنظیم دقیق (Fine-tuning) روی مدل‌های پایه (Backbones) مختلف جواب می‌دهند. این ویژگی به تیم‌ها اجازه می‌دهد مدل‌های مستقر شده را بدون نیاز به جمع‌آوری مجموعه‌داده‌های جدید، گسترش دهند.

معماری فنی و توابع اولیه

SpatialClaw بر یک حلقه پنج‌مرحله‌ای متکی است: برنامه‌ریزی، تولید کد، اجرای کد، مجموع بازخوردهای دریافتی (Feedback Assembly) و ارسال پاسخ نهایی. هسته سیستم پیش‌از‌این با فریم‌های ورودی و مجموعه‌ای از توابع اولیه (Primitives) بارگذاری شده است که در آن ابزارهای ادراکی صرفاً به‌عنوان توابع قابل فراخوانی پایتون (Python Callables) تعریف شده‌اند. این هسته ۶ نقطه دسترسی عمومی را در اختیار مدل قرار می‌دهد:

InputImages: نگهدارنده فریم‌های نمونه‌برداری شده از ویدئو یا تصاویر.
Metadata: حامل داده‌های حیاتی مانند نرخ فریم (Frame Rate)، مدت‌زمان و شاخص‌های فریم.
tools: ارائه ابزارهای ادراکی و توابع پایه هندسی.
show(): درج یک تصویر در زمینه (Context) بعدی عامل برای بررسی بصری.
vlm: ارسال پرس‌وجوها به یک نشست (Session) مجزای مدل بینایی-زبانی.
ReturnAnswer(): ارسال و ثبت پاسخ نهایی.

برای مدیریت ادراک، این سیستم چندین ابزار کلیدی را یکپارچه می‌کند:

tools.Reconstruct: این ابزار Depth Anything 3 را در بر می‌گیرد تا عمق هر فریم، پارامترهای داخلی (Intrinsics) و خارجی (Extrinsics) دوربین و نقشه‌های نقطه‌ای متراکم (Dense Point Maps) را فراهم کند.
tools.SAM3: بهره‌گیری از مدل SAM 3 برای تولید ماسک‌های تصویری یا ویدئویی از طریق پرامپت‌های متنی، نقاط یا کادرهای مشخص (Box Prompts).
Utility Modules: شامل ابزارهای سبک‌وزن برای محاسبات هندسه، مدیریت ماسک‌ها، زمان، گراف‌ها و ترسیمات.

عامل بدون آموزش اسپشیال‌کلا: استفاده از کد به‌عنوان رابط عملیاتی برای استدلال مکانی

این سیستم از یک بررسی‌کننده AST استاتیک استفاده می‌کند تا کدهای ناامن را پیش از اجرا رد کند. حلقه تکرار تا زمانی ادامه می‌یابد که دستور ReturnAnswer() فراخوانی شود یا ۳۰ گام زمانی بگذرد. این چارچوب از طیف وسیعی از مدل‌های پایه، از ۲۶ میلیارد تا ۳۹۷ میلیارد پارامتر، شامل خانواده‌های Qwen3.5/3.6 و Gemma4 پشتیبانی می‌کند. طبق گزارش انویدیا، در مدل Gemma4-31B، این سیستم به میانگین صحت ۵۹.۹٪ در ۲۰ محک (Benchmark) رسید که نشان‌دهنده افزایش ۶.۵ امتیازی نسبت به حالت پایه بدون ابزار است.

اثر ترکیب کدها

تیم انویدیا برای ایزوله کردن «اثر رابط»، سه روش مختلف را روی یک پرسش واحد مقایسه کرد: تولید کد تک‌مرحله‌ای (Single-pass)، فراخوانی‌های ساختاریافته ابزار (Structured tool-calls) و ترکیب تکرارشونده کدهای SpatialClaw. در سناریویی برای اندازه‌گیری فاصله بین یک بخاری و یک در، رویکرد تک‌مرحله‌ای پیش از دیدن ماسک مربوطه، استراتژی خود را تثبیت می‌کند و به آن پایبند می‌ماند، در حالی که فراخوانی‌های ساختاریافته نمی‌توانند خروجی‌ها را آزادانه با استفاده از کتابخانه‌هایی مانند NumPy یا SciPy ترکیب کنند.

اما SpatialClaw می‌تواند ابزارها را ترکیب کند، نتایج را بازرسی نماید و در صورت نیاز کد را اصلاح کند. به عنوان مثال، این عامل ممکن است ابتدا فاصله مرکز ثقل (Centroid distance) را محاسبه کند، سپس متوجه شود که محاسبه مرکز ثقل از «میانه» استفاده می‌کند و برای یافتن نزدیک‌ترین نقطه واقعی، رویکرد خود را به scipy.spatial.KDTree تغییر دهد. در این آزمایش خاص، مدل مقدار ۰.۹۴۳۹ متر را در برابر داده مرجع (Ground Truth) ۰.۹ متر ثبت کرد.

نتایج به‌دست‌آمده بسیار واضح بود. در حالی که فراخوانی‌های ساختاریافته به صحت ۵۶.۷٪ رسیدند، SpatialClaw این عدد را به ۵۹.۹٪ رساند. مقایسه عامل‌های مختلف روی مدل Gemma4-31B شکاف عمیقی را نشان می‌دهد:

VADAR (تک‌مرحله‌ای): ۴۰.۵٪ (۱۹.۴- نسبت به SpatialClaw)
pySpatial (تک‌مرحله‌ای): ۴۷.۸٪ (۱۲.۱- نسبت به SpatialClaw)
SpaceTools-Toolshed (فراخوانی ساختاریافته): ۴۸.۷٪ (۱۱.۲- نسبت به SpatialClaw)
SpatialClaw (کد به‌مثابه اقدام): ۵۹.۹٪

تحلیل‌های صورت‌گرفته توسط مدل زبانی به‌مثابه داور (LLM-as-a-judge) نشان داد که ۵۲.۲٪ از این پیروزی‌ها مستقیماً به دلیل قابلیت «ترکیب کدها» (Code Composition) بوده است. جریان کنترل (Control Flow) ۱۹.۵٪ و موارد خنثی از نظر رابط ۲۸.۳٪ اثر داشتند.

عملکرد در محک‌ها و کاربردهای عملی

SpatialClaw در ۲۰ محک در پنج دسته مختلف آزمایش شد: تک-تصویر، چند-نمایی، عمومی، ویدیو/۴D و درک کلی ویدیو. این قابلیت در وظایف پویا مشهودتر است. در DSI-Bench صحت ۱۷.۶ امتیاز و در MindCube ۱۵.۳ امتیاز افزایش یافت؛ چراکه این بنچمارک‌ها نیازمند محاسبات هندسی زنجیره‌ای در چندین فریم و زاویه دید مختلف هستند.

از منظر فنی، این موضوع این فرضیه قدیمی را می‌شکند که شکست‌های مکانی صرفاً مربوط به ضعف در ادراک (Perception) هستند. اگرچه ادراک همچنان سقف نهایی عملکرد است، اما «شکاف رابط» توضیح می‌دهد چرا بسیاری از مدل‌ها در وظایفی شکست می‌خورند که از نظر تئوریک ابزارهای لازم برای حل آن‌ها را در اختیار دارند. انویدیا با اجازه دادن به عامل برای تامل روی یک نقشه عمق یا ماسک و سپس بازنویسی رویکرد خود، استدلال مکانی را از یک مشکل پرامپت‌نویسی به یک مسئله مهندسی نرم‌افزار تبدیل کرده است.

کاربردهای عملی و عینی این معماری عبارتند از:

رباتیک: عامل‌های تجسم‌یافته (Embodied Agents) که پیش از اقدام فیزیکی، فواصل متری دقیق بین اشیاء را اندازه می‌گیرند.
بازرسی چند-نمایی: بازیابی دقیق جهت قرارگیری یا زاویه یک شیء با استفاده از چندین زاویه دوربین.
تحلیل ۴D: ردیابی دقیق حرکت اشیاء یا جابجایی دوربین در طول فریم‌های زمانی.
پرسش‌وپاسخ داخلی: تعیین روابط مکانی پیچیده، مانند «در نسبت به سینک در چه موقعیتی قرار دارد؟»

برای کسانی که در حوزه هوش مصنوعی تجسم‌یافته یا رباتیک فعالیت می‌کنند، این به معنای آن است که فواصل متری و مسیرهای دوربین (Camera Trajectories) را می‌توان با دقت بالاتر و بدون هزینه سنگین بازآموزی مدل بازیابی کرد. شما اکنون می‌توانید مدل بینایی-زبانی‌ای مستقر کنید که پیش از هر اقدام فیزیکی، درک سه‌بعدی خود از محیط را به‌صورت تکرارشونده اصلاح و پالایش کند.

برای بررسی پیاده‌سازی، مخزن رسمی در گیت‌هاب تحت عنوان NVlabs/SpatialClaw در دسترس است که یک گردش‌کار مبتنی بر LangGraph و یک سرویس FastAPI برای ابزارهای ادراکی GPU فراهم می‌کند. کاربران می‌توانند با کلون کردن مخزن، تنظیم محیط از طریق اجرای spatial_agent/scripts/setup.sh و استفاده از ماژول spatial_agent.entrypoints.run بنچمارک‌ها را اجرا کنند.

گام بعدی شما

بررسی مخزن NVlabs/SpatialClaw در گیت‌هاب برای پیاده‌سازی ابزارهای ادراکی در پروژه‌های رباتیک.
تست مدل‌های خانواده Gemma4 در ترکیب با هسته پایتون برای کاهش خطای تخمین فاصله.
مطالعه مستندات Depth Anything 3 برای درک بهتر نحوه تولید نقشه‌های عمق در این چارچوب.

اما تأمین سخت‌افزاری این حجم از استنتاج تکرارشونده چالش جدیدی است؛ برای درک معماری شتاب‌دهنده‌های جدید انویدیا، تحلیل ما درباره تراشه‌های Blackwell را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری فنی و توابع اولیه

InputImages: نگهدارنده فریم‌های نمونه‌برداری شده از ویدئو یا تصاویر.
Metadata: حامل داده‌های حیاتی مانند نرخ فریم (Frame Rate)، مدت‌زمان و شاخص‌های فریم.
tools: ارائه ابزارهای ادراکی و توابع پایه هندسی.
show(): درج یک تصویر در زمینه (Context) بعدی عامل برای بررسی بصری.
vlm: ارسال پرس‌وجوها به یک نشست (Session) مجزای مدل بینایی-زبانی.
ReturnAnswer(): ارسال و ثبت پاسخ نهایی.

برای مدیریت ادراک، این سیستم چندین ابزار کلیدی را یکپارچه می‌کند:

tools.Reconstruct: این ابزار Depth Anything 3 را در بر می‌گیرد تا عمق هر فریم، پارامترهای داخلی (Intrinsics) و خارجی (Extrinsics) دوربین و نقشه‌های نقطه‌ای متراکم (Dense Point Maps) را فراهم کند.
tools.SAM3: بهره‌گیری از مدل SAM 3 برای تولید ماسک‌های تصویری یا ویدئویی از طریق پرامپت‌های متنی، نقاط یا کادرهای مشخص (Box Prompts).
Utility Modules: شامل ابزارهای سبک‌وزن برای محاسبات هندسه، مدیریت ماسک‌ها، زمان، گراف‌ها و ترسیمات.

عامل بدون آموزش اسپشیال‌کلا: استفاده از کد به‌عنوان رابط عملیاتی برای استدلال مکانی

اثر ترکیب کدها

VADAR (تک‌مرحله‌ای): ۴۰.۵٪ (۱۹.۴- نسبت به SpatialClaw)
pySpatial (تک‌مرحله‌ای): ۴۷.۸٪ (۱۲.۱- نسبت به SpatialClaw)
SpaceTools-Toolshed (فراخوانی ساختاریافته): ۴۸.۷٪ (۱۱.۲- نسبت به SpatialClaw)
SpatialClaw (کد به‌مثابه اقدام): ۵۹.۹٪

عملکرد در محک‌ها و کاربردهای عملی

کاربردهای عملی و عینی این معماری عبارتند از:

رباتیک: عامل‌های تجسم‌یافته (Embodied Agents) که پیش از اقدام فیزیکی، فواصل متری دقیق بین اشیاء را اندازه می‌گیرند.
بازرسی چند-نمایی: بازیابی دقیق جهت قرارگیری یا زاویه یک شیء با استفاده از چندین زاویه دوربین.
تحلیل ۴D: ردیابی دقیق حرکت اشیاء یا جابجایی دوربین در طول فریم‌های زمانی.
پرسش‌وپاسخ داخلی: تعیین روابط مکانی پیچیده، مانند «در نسبت به سینک در چه موقعیتی قرار دارد؟»

گام بعدی شما

بررسی مخزن NVlabs/SpatialClaw در گیت‌هاب برای پیاده‌سازی ابزارهای ادراکی در پروژه‌های رباتیک.
تست مدل‌های خانواده Gemma4 در ترکیب با هسته پایتون برای کاهش خطای تخمین فاصله.
مطالعه مستندات Depth Anything 3 برای درک بهتر نحوه تولید نقشه‌های عمق در این چارچوب.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رابط کد-محور در برابر فراخوانی صلب ابزار در مدل‌های بینایی-زبانی

معماری فنی و توابع اولیه

اثر ترکیب کدها

عملکرد در محک‌ها و کاربردهای عملی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رابط کد-محور در برابر فراخوانی صلب ابزار در مدل‌های بینایی-زبانی

معماری فنی و توابع اولیه

اثر ترکیب کدها

عملکرد در محک‌ها و کاربردهای عملی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رابط کد-محور در برابر فراخوانی صلب ابزار در مدل‌های بینایی-زبانی

معماری فنی و توابع اولیه

اثر ترکیب کدها

عملکرد در محک‌ها و کاربردهای عملی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رابط کد-محور در برابر فراخوانی صلب ابزار در مدل‌های بینایی-زبانی

معماری فنی و توابع اولیه

اثر ترکیب کدها

عملکرد در محک‌ها و کاربردهای عملی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران