چگونه NVIDIA جستجوی ویدئویی را از سیستم‌های هشدار به عامل‌های هوشمند تبدیل کرد؟

تصور کنید برای پیدا کردن یک تخلف ایمنی در هزاران ساعت فیلم انبار، مجبور باشید ساعت‌ها ویدئو را جلو و عقب کنید. NVIDIA دقیقاً همین فرآیند خسته‌کننده را خودکار کرد.

حجم داده‌های ویدئویی سریع‌تر از توان تماشای ما رشد می‌کند. در ۱۳ مه ۲۰۲۶، NVIDIA رویکردی را معرفی کرد تا این آرشیوها را به داده‌های کاربردی تبدیل کند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی عامل‌های هوشمند (AI Agents) — شبیه کارمندانی متخصص که به‌جای اجرای دستورات ساده، مسئله را حل می‌کنند — اشاره کردیم، صنعت اکنون از «هشدار‌های غیرفعال» به سمت «بازجویی‌های فعال» حرکت می‌کند.

NVIDIA Metropolis Blueprint for Video Search and Summarization (VSS) از معماری ماژولار مدل‌های بینایی-زبانی (VLMs) و بازیابی‌کننده‌ها استفاده می‌کند. طبق اعلام NVIDIA، توسعه‌دهندگان اکنون می‌توانند از «مهارت‌های VSS» در کنار عامل‌های کدنویسی مثل Codex یا OpenClaw استفاده کنند تا سیستم را تنها با یک محیط چت مستقر کنند.

Diagram shows the architecture of VSS, including real-time video intelligence, downstream analytics, and agentic and offline processing

A screenshot showing the NVIDIA Brev Web UI with instructions for setting up the Brev command line interface

A screenshot from a Codex chat listing out the VSS skills it has available

در یک آزمایش عملی در انبار، عاملی را مامور شد تا کارگرانی را که روی نردبان هستند و کلاه ایمنی و جلیقه نپوشیده‌اند پیدا کند. این عامل فقط اتفاق را علامت نزد، بلکه با استفاده از جستجوی تلفیقی، گزارشی دقیق همراه با اسکرین‌شات تولید کرد. بر اساس مستندات NVIDIA، یک پردازنده H100 می‌تواند ۳۳ جریان ویدئویی هم‌زمان را با تأخیر استنتاج (Inference) — یعنی همان لحظه تولید جواب، شبیه خودِ آشپزی و نه آموزش آن — ۲.۲۴ ثانیه پشتیبانی کند.

A screenshot of the OpenClaw terminal user interface during initial setup

A screenshot of OpenClaw UI with a prompt to verify access to VSS skills

Two screenshots side by side showing the OpenClaw Chat UI with search results for ladder and PPE usage in warehouse videos

این معماری برای حل مشکل «سوزن در انبار کاه»، بر استخراج بردار معنایی (Embedding) — مثل کارت معرفی عددی برای هر تصویر که همسایگی آن با مفاهیم دیگر را نشان می‌دهد — متکی است.

Diagram of a multi-embedding search pipeline where a query is converted into multiple embeddings, searched in separate indexes, and combined to return ranked results

Bar chart showing tokens and time required for summarization using various hardware setups

این تغییر یعنی مدیر محصول دیگر نیازی به نوشتن خط لوله پیچیده ندارد. او فقط از آرشیو ویدئویی‌اش «سوال» می‌پرسد. NVIDIA با تبدیل جستجوی ویدئویی به یک «مهارت» برای مدل زبانی بزرگ (LLM)، اصطکاک فنی مدیریت میکروسرویس‌ها را حذف کرد.

گام بعدی شما

بررسی مهارت‌های VSS در گیت‌هاب برای ساخت عامل‌های ویدئویی.
تست جایگزینی سیستم‌های هشدار قدیمی با مدل‌های بازجویی فعال.
بررسی اثرات کاهش تأخیر استنتاج بر مقیاس عملیات نظارتی.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.