۴ میلیون دلار؛ این مبلغ خیرهکنندهای است که یک مرکز داده ۵۰ مگاواتی میتواند سالانه تنها با حذف کامل چیلرهای خنککننده در هزینههای انرژی و مصرف آب پسانداز کند. در ۲۱ ژوئن ۲۰۲۶، شرکت انویدیا (NVIDIA) از یک چرخش بنیادین در معماری پلتفرم Rubin پرده برداشت که استانداردهای سنتی و قدیمی مراکز داده را بهطور کامل منسوخ میکند.
برای دههها، صنعت فناوری تحت این باور عمل میکرد که اتاق سرور سردتر، به معنای بازدهی و کارایی بیشتر است. این تصور منجر به ایجاد یک «مالیات خاموش» شد؛ وضعیتی که در آن سیستمهای خنککننده تا ۴۰٪ از کل برق مصرفی یک مرکز داده را میبلعیدند. اپراتورها برای پایین نگه داشتن دما، به چیلرهای عظیم و برجهای خنککننده تکیه میکردند که میلیونها گالن آب را تبخیر میکرد تا دمای هوا به اندازه کافی پایین بماند تا فنهای پرصدا بتوانند گرما را از تراشهها دور کنند.
انویدیا اکنون با هدف بستن آنچه «شکاف هماهنگی هوش مصنوعی» (AI Coordination Gap) مینامد، این الگوی قدیمی را میشکند. طبق اعلام این شرکت، به جای بهینهسازی تراشه بهصورت ایزوله و جداگانه، آنها سیلیکون، مایع خنککننده، رک و کل ساختمان را به صورت یک حلقه بسته (Closed Loop) واحد طراحی کردهاند. این سیستم تضمین میکند که عملکرد نهایی توسط کل «پوش Thermal» یا ظرفیت حرارتی تعیین شود، نه فقط توسط مشخصات فنی (SKU) شتابدهنده.

سازوکار دمای ۴۵ درجه
هسته مرکزی پلتفرم Rubin، توانایی دستیابی به خنککردن ۱۰۰٪ مایع با حذف کامل تمامی فنها است. این سیستم از مخلوطی شامل ۷۵٪ آب و ۲۵٪ پروپیلن گلیکول استفاده میکند. برخلاف سیستمهای سنتی که تلاش میکنند مایعات را بسیار سرد نگه دارند، Rubin اجازه میدهد مایع خنککننده با دمای ۴۵ درجه سانتیگراد (۱۱۳ درجه فارنهایت) وارد رکها شود — دمایی که حتی از جکوزیهای معمولی (که عموماً بین ۳۸ تا ۴۰ درجه هستند) گرمتر است.

به نقل از پست وبلاگی جاش پارکر با عنوان «گرمتر از جکوزی: پیشرفت ۴۵ درجه برای خنک کردن بزرگترین ماشینهای هوش مصنوعی»، همین گرمای متناقض، کلید بهرهوری است. از آنجایی که مایع با دمای ۴۵ درجه وارد و با دمای نزدیک به ۵۵ درجه خارج میشود، گرید حرارتی این گرما به اندازه کافی بالاست تا از طریق «خنککنندههای خشک» (Dry Coolers) بهسادگی به هوای آزاد محیط منتقل شود.
این سازوکار نیاز به چیلرهای پرمصرف انرژی را در حدود ۹۹٪ ایام سال (در اقلیمهای مساعد) از بین میبرد. علی حیدری، مدیر زیرساختهای خنککننده و مرکز داده در انویدیا، تأکید کرد که بسته به اقلیم، شاید تنها در «حدود ۱٪ سال» به چیلر نیاز باشد. این موضوع تأیید میکند که تراشهها میتوانند بدون نیاز به تبدیل اتاق سرور به یک «یخچال صنعتی»، با حداکثر توان و عملکرد کار کنند.

مشخصات فنی و پیامدهای عملیاتی
این زیرساخت که در طرح مرجع کارخانه هوش مصنوعی NVIDIA DSX مستند شده است، چندین پیروزی عملیاتی ملموس را ارائه میدهد:
- حذف مصرف آب: این سیستم به کاهش ۱۰۰ درصدی مصرف آب دست مییابد. برجهای خنککننده سنتی بهطور معمول سالانه حدود ۲.۶ میلیون گالن آب به ازای هر مگاوات مصرف میکنند؛ اما سیستم حلقه بسته Rubin این مصرف را بهطور کامل حذف میکند.
- صرفهجویی انرژی: یک مرکز داده ۵۰ مگاواتی که به این معماری خنککننده مایع منتقل شود، سالانه بیش از ۴ میلیون دلار سود میکند. این رقم بهطور میانگین برابر با ۸۰ هزار دلار برای هر مگاوات در سال در هزینههای انرژی خنککاری و آب است.
- قانون یک درجه: این صرفهجوییها بر اساس یک قانون فیزیکی است که انویدیا به آن استناد میکند: افزایش تنها یک درجه در دمای گیاه چیلر، هزینههای انرژی خنککننده را تقریباً ۴٪ کاهش میدهد. Rubin صرفاً دما را یک درجه بالا نبرده، بلکه کل پوش حرارتی را به ۴۵ درجه منتقل کرده است.
- کاهش صدا: با حذف تکتک فنها در سراسر سیستم، انویدیا کف صوتی ۸۵ دسیبلی را که پیشتر تکنسینها را مجبور به استفاده از تجهیزات محافظ گوش میکرد، بهطور کامل از بین برده است.
علی حیدری بیان کرد که این طراحی بهطور مؤثری مقادیر عظیمی از توان مصرفی و «تقریباً تمام مصرف آب» را حذف کرده است. این موفقیت حاصل همکاری نزدیک و تقریباً یک دهه با Motivair (بخش خنککننده پیشرفته شرکت Schneider Electric) بود. ریچارد ویتمور، رئیس و مدیرعامل Motivair، تأیید کرد که این مشارکت عمیق برای پیشبرد نقشه راه محصولات انویدیا ضروری بوده است.

چرخه گامبهگام خنکسازی
برای درک نحوه عملکرد این معماری در یک کارخانه تولیدی هوش مصنوعی، فرآیند از یک چرخه حلقه بسته مشخص پیروی میکند:
۱. واحد توزیع خنککننده (CDU): واحد CDU مخلوط ۷۵٪ آب و ۲۵٪ پروپیلن گلیکول را با دمای ۴۵ درجه به داخل رک پمپ میکند. از آنجایی که مایع بهطور نامحدود بازگردانی و گردش میکند، هیچ آب جدیدی مصرف نمیشود.
۲. تعامل با صفحات سرد (Cold Plates): مایع از صفحاتی رد میشود که مستقیماً روی هر پردازنده و قطعه شبکه قرار دارند و گرما را دقیقاً از منبع جذب میکنند.
۳. جمعآوری گرما: مایع خنککننده هنگام خروج از سرور حدود ۱۰ درجه گرمتر میشود (به ۵۵ درجه میرسد) و کل بار گرمایی تراشه را بدون نیاز به هیچ فن داخلی منتقل میکند.
۴. دفع گرمای بیرونی: به دلیل دمای بالای این حلقه، خنککنندههای خشک گرمای موجود را به هوای محیط میسپارند. این امر نیاز به آب تبخیری و چیلرهای سنگین را حذف میکند.
۵. بازگشت حلقه بسته: مایع خنکشده به CDU بازگشته و این چرخه دوباره آغاز میشود.
شکاف هماهنگی هوش مصنوعی
این گذار، درسی بزرگتر در زمینه سیستمهاست. انویدیا استدلال میکند که نگاه به تراشهها، سیستمهای خنککننده و شبکه به عنوان سیلوهای جداگانه، منجر به از دست رفتن عملکرد میشود. این همان «شکاف هماهنگی هوش مصنوعی» است؛ یعنی تلفات سیستمی که وقتی قطعات بهصورت جداگانه بهینه میشوند و هرگز به عنوان یک سیستم بسته و هماهنگ مدیریت نمیشوند، ظاهر میشود.
ریچارد ویتمور اشاره کرد که وقتی میزان وات-به-ازای-هر-تراشه از یک آستانه خاص گذشت، خنککردن مایع به یک ضرورت تبدیل شد. این تغییر چنان مطلق است که انویدیا ادعا میکند هر ارائهدهنده ابری که در حال ساخت زیرساخت برای Rubin است، در حال انجام این انتقال است، زیرا این سیستم بهصورت بومی (Native) یکپارچه شده و دیگر یک افزونه اختیاری نیست. این روند توسط تحلیلهای مؤسسه Uptime و دستورالعملهای حرارتی Datacom متعلق به ASHRAE نیز تأیید شده است که مدتهاست کاهش نقاط تنظیم دمای آب ورودی را برای افزایش کارایی رصد کردهاند. همچنین آژانس بینالمللی انرژی (IEA) و وزارت انرژی ایالات متحده فشار کلان بر مصرف انرژی مراکز داده را مستند کردهاند، موضوعی که در گزارشهای اخیر درباره تقاضای انرژی هوش مصنوعی در اروپا نیز به طور گسترده مورد بحث قرار گرفته است.
پنج لایه هماهنگی سیستمی
پیروزی سختافزاری انویدیا، یک نقشه راه برای مهندسان ارشد در مورد نحوه مدیریت سیستمهای هوش مصنوعی در پنج لایه مفهومی ارائه میدهد:
- لایه ۱: بهینهسازی قطعه: پرهیز از این تله که تصور کنیم یک تراشه سریع بهتنهایی مشکل را حل میکند. درست همانطور که یک خط لوله ۶ مرحلهای با مراحل ۹۷٪ قابل اعتماد، در نهایت تنها ۸۳٪ قابلیت اطمینان سرتاسری دارد، بهینهسازی ایزوله تراشه همان «تفکر عصر خنککننده با هوا» است.
- لایه ۲: هماهنگی رابطها: مدیریت مرزهایی که انرژی یا اطلاعات در آن نشت میکنند. در سختافزار، این مرز همان مرز چیلر است؛ در نرمافزار، این مرز همان نقطه تحویل بین سیستمهای چندعاملی (Multi-agent) و لایههای بازیابی (Retrieval) است.
- لایه ۳: پروتکل مشترک: پیادهسازی یک استاندارد واحد. Rubin از یک مشخصه مایع واحد (۷۵/۲۵) استفاده میکند؛ نرمافزارها نیز باید از استانداردهای مشترک ابزار-و-زمینه (Tool-and-context) استفاده کنند تا عاملها و ابزارها به جای استفاده از کدهای رابط (Glue code) دستساز، با یک زبان واحد صحبت کنند.
- لایه ۴: انعطاف محیطی: طراحی برای «روزهای ۴۵ درجه». Rubin در هوای گرم تابستان شکوفا میشود زیرا برای عملکرد خود به هوای سرد وابسته نیست. سیستمهای مقاوم هوش مصنوعی نیز به همین ترتیب باید ورودیهای نامنظم دنیای واقعی را تحمل کنند، نه اینکه فرض کنند دادهها مانند محیط آزمایشگاه بینقص هستند.
- لایه ۵: اندازهگیری سطح سیستم: سنجش تأثیر کل ساختمان (مثلاً ۴ میلیون دلار سود سالانه یا ۱۳۰ میلیون گالن آب) بهجای تمرکز صرف بر FLOPS تکتک تراشهها. عاملهای هوش مصنوعی نیز باید بهصورت سرتاسری (End-to-End) سنجیده شوند، نه گامبهگام؛ زیرا عاملهایی که در حالت ایزوله عالی به نظر میرسند، اغلب در آزمون سیستمی شکست میخورند.
تحلیل تجاری و بازار
برای مؤسسان استارتاپی و مالکان کسبوکارهای کوچک، این تغییر سختافزاری در نهایت منجر به کاهش قیمت محاسبات (Compute Price Deflation) میشود. چون خنککردن تا ۴۰٪ برق مراکز داده را میگیرد، کاهش این سربار، کف قیمتی APIهای هوش مصنوعی ابری از ارائهدهندگانی مانند OpenAI و Anthropic را پایین میآورد.
علاوه بر این، این تحول ظرفیتهای جغرافیایی جدیدی را باز میکند. آب اغلب سختترین محدودیت برای مکانیابی مراکز داده جدید است. با حذف محدودیت مصرف آب (حدود ۲.۶ میلیون گالن به ازای هر مگاوات در سال)، محاسبات هوش مصنوعی میتواند به مناطق کمآب منتقل شود و بهطور بالقوه تأخیر (Latency) را برای کاربران نهایی در آن مناطق کاهش دهد. اگر شما یک SaaS مبتنی بر هوش مصنوعی را اداره میکنید، باید مدل هزینههای کالاهای فروخته شده (COGS) خود را بر اساس دنیایی تنظیم کنید که در آن هزینههای محاسبات با مقیاسپذیر شدن خنککننده مایع، ۱۵ تا ۲۵ درصد کاهش مییابد.
با این حال، ریسکی برای اپراتورهای قدیمی وجود دارد. کسانی که اجارههای بلندمدت برای ساختمانهایی با کفهای کاذب مخصوص خنککنندههای هوایی امضا کردهاند، اکنون با «داراییهای بلااستفاده» (Stranded Assets) روبرو هستند. بازسازی این ساختمانها بسیار گران است و طراحی اصلی آنها — که برای هوای سرد ساخته شده بود — اکنون بهطور بنیادین با نیازهای سیلیکونی با تراکم بالای هوش مصنوعی ناسازگار است. شرکتهایی که بیشترین مشکل را خواهند داشت، کسانی هستند که سعی میکنند ساختمانهایی را مستهلک کنند که برای عصری طراحی شده بودند که Rubin عملاً به آن پایان داد.
پیادهسازی و مدلسازی صرفهجوییها
استقرار معماری Rubin یک بازسازی دستی (DIY) نیست، بلکه یک معماری مرجع است. اپراتورها تشویق میشوند که از راهنمای DSX AI factory پیروی کنند و پروفایل دمای محیطی خود را تطبیق دهند تا اطمینان حاصل کنند خنککنندههای خشک میتوانند مایع ۵۵ درجه را در بیشتر ایام سال دفع کنند. تعامل حرفهای با شرکای تجاری مانند Motivair/Schneider Electric توصیه میشود زیرا این سیستمها برای نقشههای راه خاصی بهصورت مشترک طراحی شدهاند.
برای مدلسازی سود، مدیران هوش مصنوعی میتوانند از این ارقام کلیدی استفاده کنند:
- آب: یک مرکز ۵۰ مگاواتی سالانه تقریباً ۱۳۰ میلیون گالن آب پسانداز میکند که معادل تقریباً ۱۹۷ استخر المپیک است.
- انرژی: بر اساس قانون ۴٪ صرفهجویی به ازای هر درجه افزایش، انتقال از دمای استاندارد حدود ۳۳ درجه به ۴۵ درجه میتواند به معنای کاهش تقریبی ۴۸ درصدی در انرژی خنککننده باشد.
- مقیاس ناوگان: یک هایپرسکیلر که ۱ گیگاوات (۱۰۰۰ مگاوات) ظرفیت خنککننده مایع را اجرا میکند، میتواند سالانه در حدود ۸۰ میلیون دلار در انرژی خنککاری و آب صرفهجویی کند.
مقایسه تفصیلی: مایع در برابر هوا
ماتریس مقایسهای خنککنی:
برای درک بزرگی این تغییر، نحوه مقایسه Rubin با استانداردهای پیشین را بررسی کنید:
- مایع ۴۵ درجه NVIDIA Rubin: ورودی مایع تا ۴۵ درجه (۱۱۳ درجه فارنهایت). سیستم کاملاً بدون فن. مصرف آب نزدیک به صفر (حلقه بسته). نیاز به چیلر در حدود ۱٪ سال. سود سالانه ۴ میلیون دلار برای ۵۰ مگاوات.
- رکهای هوایی Dell PowerEdge: متکی به هوای سرد شده. آرایههای عظیم فن (۸۵ دسیبل یا بیشتر). سهم بالای انرژی در مصرف کل (تا ۴۰٪).
- مایع سنتی با برج خنککننده (مانند Vertiv Liebert): معمولاً دمای پایینتر مایع. استفاده از خنککننده تبخیری. مصرف حدود ۲.۶ میلیون گالن آب به ازای هر مگاوات در سال.
معیارهای استقرار استراتژیک
هنگام تصمیمگیری برای پذیرش این زیرساخت، توصیههای زیر اعمال میشود:
از خنککردن مایع ۴۵ درجه استفاده کنید اگر:
- در حال استقرار زیرساختهای کلاس Rubin هستید، جایی که میزان وات-بر-تراشه از آستانه تحمل خنککاری با هوا فراتر میرود.
- در اقلیمی هستید که خنککنندههای خشک میتوانند مایع ۵۵ درجه را در اکثر ایام سال دفع کنند.
- کمآبی یا هزینه بالای آب، یک محدودیت الزامآور در انتخاب سایت شماست.
- در حال ساخت یک مرکز داده کاملاً جدید (Greenfield) هستید، زیرا طراحی حلقه بسته همیشه بر بازسازی برنده است.
محتاط باشید یا تجدیدنظر کنید اگر:
- در اقلیمهای بسیار گرم فعالیت میکنید که در آن نیاز به چیلر ممکن است بسیار فراتر از پنجره ۱ درصدی باشد.
- سرمایهگذاری عمیقی روی زیرساختهای کف کاذب خنککننده با هوا کردهاید و هزینههای بازسازی بر صرفهجوییها غلبه میکند.
- بارهای کاری شما کمتراکم هستند و پیچیدگی لولهکشی صفحات سرد را توجیه نمیکنند.
چشمانداز آینده
با نگاه به سالهای ۲۰۲۷ و ۲۰۲۸، دمای خروجی ۵۵ درجه راه را برای «خنککردن چرخشی» (Circular Cooling) باز میکند. این گرما به اندازه کافی باکیفیت (High-grade) است تا برای گرمایش منطقهای در شهرها بازیافت شود — رویکردی که پیش از این در بازارهایی که توسط آژانس بینالمللی انرژی (IEA) رصد میشوند، آزمایش شده است.
نقشه راه نشان میدهد که تا نیمه دوم ۲۰۲۶، خنککردن مایع Rubin به استاندارد پیشفرض (De facto standard) تبدیل خواهد شد. تا سال ۲۰۲۷، مناطق کمآب به نقشه محاسبات هوش مصنوعی اضافه میشوند و تا سال ۲۰۲۸، سقوط هزینههای انرژی ناشی از این تحول، فشار کاهشی بر قیمت هر توکن در لایههای اصلی APIهای هوش مصنوعی وارد خواهد کرد. هدف نهایی، رسیدن به یک کارخانه هوش مصنوعی بدون چیلر است که دفع گرما در آن در تمام طول سال بهصورت غیرفعال صورت میگیرد.
گام بعدی شما
- اگر مدیر زیرساخت هستید، پروفایل دمای محیطی سایت خود را با دمای خروجی ۵۵ درجه برای بررسی امکان جایگزینی خنککنندههای خشک تطبیق دهید.
- برای مؤسسان SaaS، اثر کاهش احتمالی ۱۵ تا ۲۵ درصدی هزینه محاسبات را در مدل مالی ترازنامه سال ۲۰۲۷ خود پیشبینی کنید.
- بررسی کنید آیا دیتاسنترهای فعلی شما دارای «داراییهای بلااستفاده» (Stranded Assets) به دلیل معماری قدیمی خنککننده با هوا هستند یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر حذف فنها بر طول عمر قطعات و کاهش استهلاک را در گزارش بعدی بررسی خواهیم کرد.




گفتگو