Fleet Intelligence: سازوکار جدید انویدیا برای پیش‌بینی خرابی در خوشه‌های GPU

تصور کنید یک خطای کوچک در درایور یا یک نقص سخت‌افزاری نامحسوس در یک خوشه عظیم GPU، باعث توقف کامل هفته‌ها آموزش یک مدل شود. شما باید بدانید که در مقیاس هزاران پردازنده، مدیریت سخت‌افزارهای ناهمگون و بارهای کاری متغیر، به یک کابوس نظارتی تبدیل می‌شود.

انویدیا (NVIDIA) برای حل این چالش، در ۱۱ می ۲۰۲۶ سرویس Fleet Intelligence را به‌طور عمومی عرضه کرد. این ابزار یک لایه مدیریتی برای پایش مستمر شتاب‌دهنده‌های مرکز داده است. برای درک بهتر، تله‌متری (Telemetry) — تشبیه روزمره: مثل یک مانیتور سلامت دیجیتال که هر ضربان قلب سخت‌افزار را گزارش می‌دهد — در این سرویس به جای نظارت ساده بر «روشن یا خاموش بودن» گره خورده و دیدگاهی دقیق از عملکرد به ازای هر وات و سلامت حرارتی ارائه می‌دهد.

همان‌طور که در تحلیل قبلی ما درباره‌ی زیرساخت‌های محاسباتی مدل‌های زبانی اشاره کردیم، بهینه‌سازی بازگشت سرمایه (ROI) در رقابت فعلی زیرساخت‌های هوش مصنوعی، تنها با حذف نقاط کور عملیاتی ممکن است. طبق گزارش وب‌سایت developer.nvidia.com، این سرویس از یک عامل (Agent) متن‌باز با اثر حداقلی بر سیستم استفاده می‌کند که داده‌ها را به یک سرویس ابری مدیریت‌شده ارسال می‌کند.

جزئیات فنی این پلتفرم شامل موارد زیر است:

بصری‌سازی موجودی: داشبوردهای جهانی برای بررسی میزان بهره‌برداری از GPU و حافظه در مناطق مختلف محاسباتی.

Screenshot of the Fleet Intelligence dashboard that summarizes fleet wide aggregations of data such as GPU and memory utilization as well as total GPUs in an up state.

پایش سلامت: ردیابی لحظه‌ای توان، دما و خطاهای ECC/XID (خطاهای تصحیح کد) از طریق ابزارهای DCGM و GPUd برای شناسایی افت عملکرد پیش از وقوع خرابی.

Screenshot of the machine view that allows users to view a sorted list of machines or hosts with the detail panel expanded to display metadata specific to an individual machine.

تأیید اصالت و یکپارچگی: استفاده از Attestation SDK و سرویس NRAS برای تأیید رمزنگاری‌شده‌ی سفت‌افزارها (Firmware) تا اطمینان حاصل شود که سخت‌افزار دست‌کاری نشده است.

Screenshot of the alert panel that displays alerts associated with an individual machine.

پشتیبانی: سازگاری با معماری‌های Hopper، Blackwell و Vera Rubin (البته تأیید اصالت تنها در دو معماری اخیر فعال است).

به نظر ما، متن‌باز کردن این عامل، تلاشی از سوی انویدیا برای ایجاد اعتماد در خط لوله داده‌هاست، در حالی که هم‌زمان کاربران را عمیق‌تر در اکوسیستم خود محبوس می‌کند. این چرخش به سمت «دسته‌بندی پیش‌بینانه خرابی‌ها»، یعنی انتقال از تعمیرات واکنشی به ارکستراسیون زیرساختی مبتنی بر هوش مصنوعی.

گام بعدی شما

مالکان GPUهای مرکز داده انویدیا و مستأجران ابری می‌توانند هم‌اکنون درخواست دسترسی رایگان به این سرویس را ارسال کنند.
برای مدیران زیرساخت، اولویت‌بندی جایگزینی ماژول‌های HBM در زمان‌های توقف برنامه‌ریزی‌شده (Downtime) جایگزین شناسایی خرابی در حین آموزش مدل خواهد شد.
منتظر انتشار مدل‌های پیش‌بینانه باشید که سیگنال‌های تله‌متری را مستقیماً به دستورات خودکار جایگزینی سخت‌افزار تبدیل می‌کنند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات فنی این پلتفرم شامل موارد زیر است:

بصری‌سازی موجودی: داشبوردهای جهانی برای بررسی میزان بهره‌برداری از GPU و حافظه در مناطق مختلف محاسباتی.

Screenshot of the Fleet Intelligence dashboard that summarizes fleet wide aggregations of data such as GPU and memory utilization as well as total GPUs in an up state.

پایش سلامت: ردیابی لحظه‌ای توان، دما و خطاهای ECC/XID (خطاهای تصحیح کد) از طریق ابزارهای DCGM و GPUd برای شناسایی افت عملکرد پیش از وقوع خرابی.

Screenshot of the machine view that allows users to view a sorted list of machines or hosts with the detail panel expanded to display metadata specific to an individual machine.

تأیید اصالت و یکپارچگی: استفاده از Attestation SDK و سرویس NRAS برای تأیید رمزنگاری‌شده‌ی سفت‌افزارها (Firmware) تا اطمینان حاصل شود که سخت‌افزار دست‌کاری نشده است.

Screenshot of the alert panel that displays alerts associated with an individual machine.

پشتیبانی: سازگاری با معماری‌های Hopper، Blackwell و Vera Rubin (البته تأیید اصالت تنها در دو معماری اخیر فعال است).

گام بعدی شما

مالکان GPUهای مرکز داده انویدیا و مستأجران ابری می‌توانند هم‌اکنون درخواست دسترسی رایگان به این سرویس را ارسال کنند.
برای مدیران زیرساخت، اولویت‌بندی جایگزینی ماژول‌های HBM در زمان‌های توقف برنامه‌ریزی‌شده (Downtime) جایگزین شناسایی خرابی در حین آموزش مدل خواهد شد.
منتظر انتشار مدل‌های پیش‌بینانه باشید که سیگنال‌های تله‌متری را مستقیماً به دستورات خودکار جایگزینی سخت‌افزار تبدیل می‌کنند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Fleet Intelligence: سازوکار جدید انویدیا برای پیش‌بینی خرابی در خوشه‌های GPU

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Fleet Intelligence: سازوکار جدید انویدیا برای پیش‌بینی خرابی در خوشه‌های GPU

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Fleet Intelligence: سازوکار جدید انویدیا برای پیش‌بینی خرابی در خوشه‌های GPU

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Fleet Intelligence: سازوکار جدید انویدیا برای پیش‌بینی خرابی در خوشه‌های GPU

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران