تصور کنید برای پیدا کردن یک تخلف ایمنی در هزاران ساعت فیلم انبار، مجبور باشید ساعتها ویدئو را جلو و عقب کنید. NVIDIA دقیقاً همین فرآیند خستهکننده را خودکار کرد.
حجم دادههای ویدئویی سریعتر از توان تماشای ما رشد میکند. در ۱۳ مه ۲۰۲۶، NVIDIA رویکردی را معرفی کرد تا این آرشیوها را به دادههای کاربردی تبدیل کند. همانطور که در تحلیلهای قبلی ما دربارهی عاملهای هوشمند (AI Agents) — شبیه کارمندانی متخصص که بهجای اجرای دستورات ساده، مسئله را حل میکنند — اشاره کردیم، صنعت اکنون از «هشدارهای غیرفعال» به سمت «بازجوییهای فعال» حرکت میکند.
NVIDIA Metropolis Blueprint for Video Search and Summarization (VSS) از معماری ماژولار مدلهای بینایی-زبانی (VLMs) و بازیابیکنندهها استفاده میکند. طبق اعلام NVIDIA، توسعهدهندگان اکنون میتوانند از «مهارتهای VSS» در کنار عاملهای کدنویسی مثل Codex یا OpenClaw استفاده کنند تا سیستم را تنها با یک محیط چت مستقر کنند.



در یک آزمایش عملی در انبار، عاملی را مامور شد تا کارگرانی را که روی نردبان هستند و کلاه ایمنی و جلیقه نپوشیدهاند پیدا کند. این عامل فقط اتفاق را علامت نزد، بلکه با استفاده از جستجوی تلفیقی، گزارشی دقیق همراه با اسکرینشات تولید کرد. بر اساس مستندات NVIDIA، یک پردازنده H100 میتواند ۳۳ جریان ویدئویی همزمان را با تأخیر استنتاج (Inference) — یعنی همان لحظه تولید جواب، شبیه خودِ آشپزی و نه آموزش آن — ۲.۲۴ ثانیه پشتیبانی کند.



این معماری برای حل مشکل «سوزن در انبار کاه»، بر استخراج بردار معنایی (Embedding) — مثل کارت معرفی عددی برای هر تصویر که همسایگی آن با مفاهیم دیگر را نشان میدهد — متکی است.


این تغییر یعنی مدیر محصول دیگر نیازی به نوشتن خط لوله پیچیده ندارد. او فقط از آرشیو ویدئوییاش «سوال» میپرسد. NVIDIA با تبدیل جستجوی ویدئویی به یک «مهارت» برای مدل زبانی بزرگ (LLM)، اصطکاک فنی مدیریت میکروسرویسها را حذف کرد.
گام بعدی شما
- بررسی مهارتهای VSS در گیتهاب برای ساخت عاملهای ویدئویی.
- تست جایگزینی سیستمهای هشدار قدیمی با مدلهای بازجویی فعال.
- بررسی اثرات کاهش تأخیر استنتاج بر مقیاس عملیات نظارتی.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو