پلتفرم Rubin انویدیا مصرف آب مراکز داده را به صفر رساند

۴ میلیون دلار؛ این مبلغ خیره‌کننده‌ای است که یک مرکز داده ۵۰ مگاواتی می‌تواند سالانه تنها با حذف کامل چیلرهای خنک‌کننده در هزینه‌های انرژی و مصرف آب پس‌انداز کند. در ۲۱ ژوئن ۲۰۲۶، شرکت انویدیا (NVIDIA) از یک چرخش بنیادین در معماری پلتفرم Rubin پرده برداشت که استانداردهای سنتی و قدیمی مراکز داده را به‌طور کامل منسوخ می‌کند.

برای دهه‌ها، صنعت فناوری تحت این باور عمل می‌کرد که اتاق سرور سردتر، به معنای بازدهی و کارایی بیشتر است. این تصور منجر به ایجاد یک «مالیات خاموش» شد؛ وضعیتی که در آن سیستم‌های خنک‌کننده تا ۴۰٪ از کل برق مصرفی یک مرکز داده را می‌بلعیدند. اپراتورها برای پایین نگه داشتن دما، به چیلرهای عظیم و برج‌های خنک‌کننده تکیه می‌کردند که میلیون‌ها گالن آب را تبخیر می‌کرد تا دمای هوا به اندازه کافی پایین بماند تا فن‌های پرصدا بتوانند گرما را از تراشه‌ها دور کنند.

انویدیا اکنون با هدف بستن آنچه «شکاف هماهنگی هوش مصنوعی» (AI Coordination Gap) می‌نامد، این الگوی قدیمی را می‌شکند. طبق اعلام این شرکت، به جای بهینه‌سازی تراشه به‌صورت ایزوله و جداگانه، آن‌ها سیلیکون، مایع خنک‌کننده، رک و کل ساختمان را به صورت یک حلقه بسته (Closed Loop) واحد طراحی کرده‌اند. این سیستم تضمین می‌کند که عملکرد نهایی توسط کل «پوش Thermal» یا ظرفیت حرارتی تعیین شود، نه فقط توسط مشخصات فنی (SKU) شتاب‌دهنده.

فناوری خنک‌کننده مایع ۴۵ درجه سانتی‌گراد انویدیا برای هوش مصنوعی

سازوکار دمای ۴۵ درجه

هسته مرکزی پلتفرم Rubin، توانایی دستیابی به خنک‌کردن ۱۰۰٪ مایع با حذف کامل تمامی فن‌ها است. این سیستم از مخلوطی شامل ۷۵٪ آب و ۲۵٪ پروپیلن گلیکول استفاده می‌کند. برخلاف سیستم‌های سنتی که تلاش می‌کنند مایعات را بسیار سرد نگه دارند، Rubin اجازه می‌دهد مایع خنک‌کننده با دمای ۴۵ درجه سانتی‌گراد (۱۱۳ درجه فارنهایت) وارد رک‌ها شود — دمایی که حتی از جکوزی‌های معمولی (که عموماً بین ۳۸ تا ۴۰ درجه هستند) گرم‌تر است.

فناوری خنک‌کننده مایع هوش مصنوعی ۴۵ درجه سانتی‌گراد انویدیا: پیشرفتی در خنک‌سازی سرورها

به نقل از پست وبلاگی جاش پارکر با عنوان «گرم‌تر از جکوزی: پیشرفت ۴۵ درجه برای خنک کردن بزرگ‌ترین ماشین‌های هوش مصنوعی»، همین گرمای متناقض، کلید بهره‌وری است. از آنجایی که مایع با دمای ۴۵ درجه وارد و با دمای نزدیک به ۵۵ درجه خارج می‌شود، گرید حرارتی این گرما به اندازه کافی بالاست تا از طریق «خنک‌کننده‌های خشک» (Dry Coolers) به‌سادگی به هوای آزاد محیط منتقل شود.

این سازوکار نیاز به چیلرهای پرمصرف انرژی را در حدود ۹۹٪ ایام سال (در اقلیم‌های مساعد) از بین می‌برد. علی حیدری، مدیر زیرساخت‌های خنک‌کننده و مرکز داده در انویدیا، تأکید کرد که بسته به اقلیم، شاید تنها در «حدود ۱٪ سال» به چیلر نیاز باشد. این موضوع تأیید می‌کند که تراشه‌ها می‌توانند بدون نیاز به تبدیل اتاق سرور به یک «یخچال صنعتی»، با حداکثر توان و عملکرد کار کنند.

فناوری خنک‌کننده مایع هوش مصنوعی ۴۵ درجه سانتی‌گراد انویدیا: پیشرفتی در خنک‌سازی سرورها

مشخصات فنی و پیامدهای عملیاتی

این زیرساخت که در طرح مرجع کارخانه هوش مصنوعی NVIDIA DSX مستند شده است، چندین پیروزی عملیاتی ملموس را ارائه می‌دهد:

حذف مصرف آب: این سیستم به کاهش ۱۰۰ درصدی مصرف آب دست می‌یابد. برج‌های خنک‌کننده سنتی به‌طور معمول سالانه حدود ۲.۶ میلیون گالن آب به ازای هر مگاوات مصرف می‌کنند؛ اما سیستم حلقه بسته Rubin این مصرف را به‌طور کامل حذف می‌کند.
صرفه‌جویی انرژی: یک مرکز داده ۵۰ مگاواتی که به این معماری خنک‌کننده مایع منتقل شود، سالانه بیش از ۴ میلیون دلار سود می‌کند. این رقم به‌طور میانگین برابر با ۸۰ هزار دلار برای هر مگاوات در سال در هزینه‌های انرژی خنک‌کاری و آب است.
قانون یک درجه: این صرفه‌جویی‌ها بر اساس یک قانون فیزیکی است که انویدیا به آن استناد می‌کند: افزایش تنها یک درجه در دمای گیاه چیلر، هزینه‌های انرژی خنک‌کننده را تقریباً ۴٪ کاهش می‌دهد. Rubin صرفاً دما را یک درجه بالا نبرده، بلکه کل پوش حرارتی را به ۴۵ درجه منتقل کرده است.
کاهش صدا: با حذف تک‌تک فن‌ها در سراسر سیستم، انویدیا کف صوتی ۸۵ دسی‌بلی را که پیش‌تر تکنسین‌ها را مجبور به استفاده از تجهیزات محافظ گوش می‌کرد، به‌طور کامل از بین برده است.

علی حیدری بیان کرد که این طراحی به‌طور مؤثری مقادیر عظیمی از توان مصرفی و «تقریباً تمام مصرف آب» را حذف کرده است. این موفقیت حاصل همکاری نزدیک و تقریباً یک دهه با Motivair (بخش خنک‌کننده پیشرفته شرکت Schneider Electric) بود. ریچارد ویتمور، رئیس و مدیرعامل Motivair، تأیید کرد که این مشارکت عمیق برای پیشبرد نقشه راه محصولات انویدیا ضروری بوده است.

فناوری خنک‌کننده مایع هوش مصنوعی ۴۵ درجه سانتی‌گراد انویدیا: پیشرفتی در خنک‌سازی سرورها

چرخه گام‌به‌گام خنک‌سازی

برای درک نحوه عملکرد این معماری در یک کارخانه تولیدی هوش مصنوعی، فرآیند از یک چرخه حلقه بسته مشخص پیروی می‌کند:

۱. واحد توزیع خنک‌کننده (CDU): واحد CDU مخلوط ۷۵٪ آب و ۲۵٪ پروپیلن گلیکول را با دمای ۴۵ درجه به داخل رک پمپ می‌کند. از آنجایی که مایع به‌طور نامحدود بازگردانی و گردش می‌کند، هیچ آب جدیدی مصرف نمی‌شود.
۲. تعامل با صفحات سرد (Cold Plates): مایع از صفحاتی رد می‌شود که مستقیماً روی هر پردازنده و قطعه شبکه قرار دارند و گرما را دقیقاً از منبع جذب می‌کنند.
۳. جمع‌آوری گرما: مایع خنک‌کننده هنگام خروج از سرور حدود ۱۰ درجه گرم‌تر می‌شود (به ۵۵ درجه می‌رسد) و کل بار گرمایی تراشه را بدون نیاز به هیچ فن داخلی منتقل می‌کند.
۴. دفع گرمای بیرونی: به دلیل دمای بالای این حلقه، خنک‌کننده‌های خشک گرمای موجود را به هوای محیط می‌سپارند. این امر نیاز به آب تبخیری و چیلرهای سنگین را حذف می‌کند.
۵. بازگشت حلقه بسته: مایع خنک‌شده به CDU بازگشته و این چرخه دوباره آغاز می‌شود.

شکاف هماهنگی هوش مصنوعی

این گذار، درسی بزرگ‌تر در زمینه سیستم‌هاست. انویدیا استدلال می‌کند که نگاه به تراشه‌ها، سیستم‌های خنک‌کننده و شبکه به عنوان سیلوهای جداگانه، منجر به از دست رفتن عملکرد می‌شود. این همان «شکاف هماهنگی هوش مصنوعی» است؛ یعنی تلفات سیستمی که وقتی قطعات به‌صورت جداگانه بهینه می‌شوند و هرگز به عنوان یک سیستم بسته و هماهنگ مدیریت نمی‌شوند، ظاهر می‌شود.

ریچارد ویتمور اشاره کرد که وقتی میزان وات-به-ازای-هر-تراشه از یک آستانه خاص گذشت، خنک‌کردن مایع به یک ضرورت تبدیل شد. این تغییر چنان مطلق است که انویدیا ادعا می‌کند هر ارائه‌دهنده ابری که در حال ساخت زیرساخت برای Rubin است، در حال انجام این انتقال است، زیرا این سیستم به‌صورت بومی (Native) یکپارچه شده و دیگر یک افزونه اختیاری نیست. این روند توسط تحلیل‌های مؤسسه Uptime و دستورالعمل‌های حرارتی Datacom متعلق به ASHRAE نیز تأیید شده است که مدت‌هاست کاهش نقاط تنظیم دمای آب ورودی را برای افزایش کارایی رصد کرده‌اند. همچنین آژانس بین‌المللی انرژی (IEA) و وزارت انرژی ایالات متحده فشار کلان بر مصرف انرژی مراکز داده را مستند کرده‌اند، موضوعی که در گزارش‌های اخیر درباره تقاضای انرژی هوش مصنوعی در اروپا نیز به طور گسترده مورد بحث قرار گرفته است.

پنج لایه هماهنگی سیستمی

پیروزی سخت‌افزاری انویدیا، یک نقشه راه برای مهندسان ارشد در مورد نحوه مدیریت سیستم‌های هوش مصنوعی در پنج لایه مفهومی ارائه می‌دهد:

لایه ۱: بهینه‌سازی قطعه: پرهیز از این تله که تصور کنیم یک تراشه سریع به‌تنهایی مشکل را حل می‌کند. درست همان‌طور که یک خط لوله ۶ مرحله‌ای با مراحل ۹۷٪ قابل اعتماد، در نهایت تنها ۸۳٪ قابلیت اطمینان سرتاسری دارد، بهینه‌سازی ایزوله تراشه همان «تفکر عصر خنک‌کننده با هوا» است.
لایه ۲: هماهنگی رابط‌ها: مدیریت مرزهایی که انرژی یا اطلاعات در آن نشت می‌کنند. در سخت‌افزار، این مرز همان مرز چیلر است؛ در نرم‌افزار، این مرز همان نقطه تحویل بین سیستم‌های چندعاملی (Multi-agent) و لایه‌های بازیابی (Retrieval) است.
لایه ۳: پروتکل مشترک: پیاده‌سازی یک استاندارد واحد. Rubin از یک مشخصه مایع واحد (۷۵/۲۵) استفاده می‌کند؛ نرم‌افزارها نیز باید از استانداردهای مشترک ابزار-و-زمینه (Tool-and-context) استفاده کنند تا عامل‌ها و ابزارها به جای استفاده از کدهای رابط (Glue code) دست‌ساز، با یک زبان واحد صحبت کنند.
لایه ۴: انعطاف محیطی: طراحی برای «روزهای ۴۵ درجه». Rubin در هوای گرم تابستان شکوفا می‌شود زیرا برای عملکرد خود به هوای سرد وابسته نیست. سیستم‌های مقاوم هوش مصنوعی نیز به همین ترتیب باید ورودی‌های نامنظم دنیای واقعی را تحمل کنند، نه اینکه فرض کنند داده‌ها مانند محیط آزمایشگاه بی‌نقص هستند.
لایه ۵: اندازه‌گیری سطح سیستم: سنجش تأثیر کل ساختمان (مثلاً ۴ میلیون دلار سود سالانه یا ۱۳۰ میلیون گالن آب) به‌جای تمرکز صرف بر FLOPS تک‌تک تراشه‌ها. عامل‌های هوش مصنوعی نیز باید به‌صورت سرتاسری (End-to-End) سنجیده شوند، نه گام‌به‌گام؛ زیرا عامل‌هایی که در حالت ایزوله عالی به نظر می‌رسند، اغلب در آزمون سیستمی شکست می‌خورند.

تحلیل تجاری و بازار

برای مؤسسان استارتاپی و مالکان کسب‌وکارهای کوچک، این تغییر سخت‌افزاری در نهایت منجر به کاهش قیمت محاسبات (Compute Price Deflation) می‌شود. چون خنک‌کردن تا ۴۰٪ برق مراکز داده را می‌گیرد، کاهش این سربار، کف قیمتی APIهای هوش مصنوعی ابری از ارائه‌دهندگانی مانند OpenAI و Anthropic را پایین می‌آورد.

علاوه بر این، این تحول ظرفیت‌های جغرافیایی جدیدی را باز می‌کند. آب اغلب سخت‌ترین محدودیت برای مکان‌یابی مراکز داده جدید است. با حذف محدودیت مصرف آب (حدود ۲.۶ میلیون گالن به ازای هر مگاوات در سال)، محاسبات هوش مصنوعی می‌تواند به مناطق کم‌آب منتقل شود و به‌طور بالقوه تأخیر (Latency) را برای کاربران نهایی در آن مناطق کاهش دهد. اگر شما یک SaaS مبتنی بر هوش مصنوعی را اداره می‌کنید، باید مدل هزینه‌های کالاهای فروخته شده (COGS) خود را بر اساس دنیایی تنظیم کنید که در آن هزینه‌های محاسبات با مقیاس‌پذیر شدن خنک‌کننده مایع، ۱۵ تا ۲۵ درصد کاهش می‌یابد.

با این حال، ریسکی برای اپراتورهای قدیمی وجود دارد. کسانی که اجاره‌های بلندمدت برای ساختمان‌هایی با کف‌های کاذب مخصوص خنک‌کننده‌های هوایی امضا کرده‌اند، اکنون با «دارایی‌های بلااستفاده» (Stranded Assets) روبرو هستند. بازسازی این ساختمان‌ها بسیار گران است و طراحی اصلی آن‌ها — که برای هوای سرد ساخته شده بود — اکنون به‌طور بنیادین با نیازهای سیلیکونی با تراکم بالای هوش مصنوعی ناسازگار است. شرکت‌هایی که بیشترین مشکل را خواهند داشت، کسانی هستند که سعی می‌کنند ساختمان‌هایی را مستهلک کنند که برای عصری طراحی شده بودند که Rubin عملاً به آن پایان داد.

پیاده‌سازی و مدل‌سازی صرفه‌جویی‌ها

استقرار معماری Rubin یک بازسازی دستی (DIY) نیست، بلکه یک معماری مرجع است. اپراتورها تشویق می‌شوند که از راهنمای DSX AI factory پیروی کنند و پروفایل دمای محیطی خود را تطبیق دهند تا اطمینان حاصل کنند خنک‌کننده‌های خشک می‌توانند مایع ۵۵ درجه را در بیشتر ایام سال دفع کنند. تعامل حرفه‌ای با شرکای تجاری مانند Motivair/Schneider Electric توصیه می‌شود زیرا این سیستم‌ها برای نقشه‌های راه خاصی به‌صورت مشترک طراحی شده‌اند.

برای مدل‌سازی سود، مدیران هوش مصنوعی می‌توانند از این ارقام کلیدی استفاده کنند:

آب: یک مرکز ۵۰ مگاواتی سالانه تقریباً ۱۳۰ میلیون گالن آب پس‌انداز می‌کند که معادل تقریباً ۱۹۷ استخر المپیک است.
انرژی: بر اساس قانون ۴٪ صرفه‌جویی به ازای هر درجه افزایش، انتقال از دمای استاندارد حدود ۳۳ درجه به ۴۵ درجه می‌تواند به معنای کاهش تقریبی ۴۸ درصدی در انرژی خنک‌کننده باشد.
مقیاس ناوگان: یک هایپرسکیلر که ۱ گیگاوات (۱۰۰۰ مگاوات) ظرفیت خنک‌کننده مایع را اجرا می‌کند، می‌تواند سالانه در حدود ۸۰ میلیون دلار در انرژی خنک‌کاری و آب صرفه‌جویی کند.

مقایسه تفصیلی: مایع در برابر هوا

ماتریس مقایسه‌ای خنک‌کنی:
برای درک بزرگی این تغییر، نحوه مقایسه Rubin با استانداردهای پیشین را بررسی کنید:

مایع ۴۵ درجه NVIDIA Rubin: ورودی مایع تا ۴۵ درجه (۱۱۳ درجه فارنهایت). سیستم کاملاً بدون فن. مصرف آب نزدیک به صفر (حلقه بسته). نیاز به چیلر در حدود ۱٪ سال. سود سالانه ۴ میلیون دلار برای ۵۰ مگاوات.
رک‌های هوایی Dell PowerEdge: متکی به هوای سرد شده. آرایه‌های عظیم فن (۸۵ دسی‌بل یا بیشتر). سهم بالای انرژی در مصرف کل (تا ۴۰٪).
مایع سنتی با برج خنک‌کننده (مانند Vertiv Liebert): معمولاً دمای پایین‌تر مایع. استفاده از خنک‌کننده تبخیری. مصرف حدود ۲.۶ میلیون گالن آب به ازای هر مگاوات در سال.

معیارهای استقرار استراتژیک

هنگام تصمیم‌گیری برای پذیرش این زیرساخت، توصیه‌های زیر اعمال می‌شود:

از خنک‌کردن مایع ۴۵ درجه استفاده کنید اگر:

در حال استقرار زیرساخت‌های کلاس Rubin هستید، جایی که میزان وات-بر-تراشه از آستانه تحمل خنک‌کاری با هوا فراتر می‌رود.
در اقلیمی هستید که خنک‌کننده‌های خشک می‌توانند مایع ۵۵ درجه را در اکثر ایام سال دفع کنند.
کم‌آبی یا هزینه بالای آب، یک محدودیت الزام‌آور در انتخاب سایت شماست.
در حال ساخت یک مرکز داده کاملاً جدید (Greenfield) هستید، زیرا طراحی حلقه بسته همیشه بر بازسازی برنده است.

محتاط باشید یا تجدیدنظر کنید اگر:

در اقلیم‌های بسیار گرم فعالیت می‌کنید که در آن نیاز به چیلر ممکن است بسیار فراتر از پنجره ۱ درصدی باشد.
سرمایه‌گذاری عمیقی روی زیرساخت‌های کف کاذب خنک‌کننده با هوا کرده‌اید و هزینه‌های بازسازی بر صرفه‌جویی‌ها غلبه می‌کند.
بارهای کاری شما کم‌تراکم هستند و پیچیدگی لوله‌کشی صفحات سرد را توجیه نمی‌کنند.

چشم‌انداز آینده

با نگاه به سال‌های ۲۰۲۷ و ۲۰۲۸، دمای خروجی ۵۵ درجه راه را برای «خنک‌کردن چرخشی» (Circular Cooling) باز می‌کند. این گرما به اندازه کافی باکیفیت (High-grade) است تا برای گرمایش منطقه‌ای در شهرها بازیافت شود — رویکردی که پیش از این در بازارهایی که توسط آژانس بین‌المللی انرژی (IEA) رصد می‌شوند، آزمایش شده است.

نقشه راه نشان می‌دهد که تا نیمه دوم ۲۰۲۶، خنک‌کردن مایع Rubin به استاندارد پیش‌فرض (De facto standard) تبدیل خواهد شد. تا سال ۲۰۲۷، مناطق کم‌آب به نقشه محاسبات هوش مصنوعی اضافه می‌شوند و تا سال ۲۰۲۸، سقوط هزینه‌های انرژی ناشی از این تحول، فشار کاهشی بر قیمت هر توکن در لایه‌های اصلی APIهای هوش مصنوعی وارد خواهد کرد. هدف نهایی، رسیدن به یک کارخانه هوش مصنوعی بدون چیلر است که دفع گرما در آن در تمام طول سال به‌صورت غیرفعال صورت می‌گیرد.

گام بعدی شما

اگر مدیر زیرساخت هستید، پروفایل دمای محیطی سایت خود را با دمای خروجی ۵۵ درجه برای بررسی امکان جایگزینی خنک‌کننده‌های خشک تطبیق دهید.
برای مؤسسان SaaS، اثر کاهش احتمالی ۱۵ تا ۲۵ درصدی هزینه محاسبات را در مدل مالی ترازنامه سال ۲۰۲۷ خود پیش‌بینی کنید.
بررسی کنید آیا دیتاسنترهای فعلی شما دارای «دارایی‌های بلااستفاده» (Stranded Assets) به دلیل معماری قدیمی خنک‌کننده با هوا هستند یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر حذف فن‌ها بر طول عمر قطعات و کاهش استهلاک را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

فناوری خنک‌کننده مایع ۴۵ درجه سانتی‌گراد انویدیا برای هوش مصنوعی