比热水浴缸还热:45°C突破为AI巨型机器降温
摘要
NVIDIA的Rubin代AI服务器实现了100%液冷,冷却液温度达45°C,大幅降低数据中心的能耗和水耗。
<div id="bsf_rt_marker"></div><p><span style="font-weight: 400;">热水浴缸的温度通常在38到40摄氏度左右,热到大多数人只能浸泡约15分钟。而NVIDIA最新的AI服务器可以让冷却液的温度更高——高达45摄氏度(113华氏度)。正是这个更高的温度限值使其更加节能。</span></p>
<p><span style="font-weight: 400;">NVIDIA Rubin代AI基础设施是全球首个实现100%液冷的——每一颗芯片、每一个网络组件,全部由封闭循环的液体冷却,系统中没有任何风扇。这种液冷方法在</span><a target="_blank" href="https://www.nvidia.com/en-us/data-center/products/dsx/"><span style="font-weight: 400;">NVIDIA DSX</span></a><span style="font-weight: 400;"> AI工厂参考设计中进行了阐述,该指南概述了设计、构建和运营整个AI工厂基础设施堆栈的最佳实践。</span></p>
<p><span style="font-weight: 400;">尽管每一代产品每瓦计算能力都显著提升,但全液冷AI计算基础设施使数据中心能够大幅降低冷却能耗——在超大规模数据中心中,这对整体能耗的降低意义重大。</span></p>
<p><span style="font-weight: 400;">“NVIDIA DSX AI工厂参考设计实现了零水耗——我们消除了大量的电力消耗,并且几乎完全消除了水耗,”NVIDIA数据中心冷却与基础设施总监Ali Heydari表示。“采用干冷却器设计,它是一个闭环系统,无蒸发水冷却——在部分气候条件下,每年可能只有约1%的时间需要用到冷水机组。”</span></p>
<p><span style="font-weight: 400;">历史上,冷却一度占数据中心</span><a target="_blank" href="https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/investing-in-the-rising-data-center-economy"><span style="font-weight: 400;">电力消耗的40%</span></a><span style="font-weight: 400;">,因此冷却效率的提升是降低运营成本和能源需求的重要领域。</span></p>
<p><a target="_blank" href="https://www.energystar.gov/products/data_center_equipment/5-simple-ways-avoid-energy-waste-your-data-center/raise-temperature"><span style="font-weight: 400;">行业估算</span></a><span style="font-weight: 400;">表明,冷水机组温度每升高1度,冷却能耗成本可降低约4%。规模化后,这些节省迅速累积。一个50兆瓦的超大规模数据中心通过转向液冷基础设施,每年可在冷却相关的能源和水耗上节省超过400万美元。</span></p>
<p><span style="font-weight: 400;">在有利的气候条件下,NVIDIA的45度液冷架构可使用干冷却器实现无冷水机组运行,将设施冷却水耗从传统冷却塔系统每兆瓦每年约260万加仑降至接近零——水耗减少高达100%。</span></p>
<p><span style="font-weight: 400;">原因在于:传统的风冷数据中心依赖大量冷空气来移除IT设备的热量,在炎热天气下通常需要高能耗的冷却基础设施。而采用NVIDIA的45度液冷,热量直接在芯片处被捕获,并通过温度更高的液体回路传输,使得室外干冷却器在一年中的大部分时间都能高效排热,同时大幅减少机械冷却需求和设施水耗。</span></p>
<p><span style="font-weight: 400;">数据中心的环境温度是灵活的——温暖夏季的空气也完全可行,因为服务器没有任何部件依赖冷空气。液体完成了所有工作——而且相同的液体可以在闭环中循环使用,因此无需消耗新的水来冷却芯片。</span></p>
<div style="width: 1200px;" class="wp-video"><video class="wp-video-shortcode" id="video-94841-1" width="1200" height="675" loop autoplay preload="auto" controls="controls"><source type="video/mp4" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/LiquidCoolingInfra_montage_v4.mp4?_=1" /><a href="https://blogs.nvidia.com/wp-content/uploads/2026/06/LiquidCoolingInfra_montage_v4.mp4">https://blogs.nvidia.com/wp-content/uploads/2026/06/LiquidCoolingInfra_montage_v4.mp4</a></video></div>
<p> </p>
<h2><b>行业新标准</b></h2>
<p><span style="font-weight: 400;">由于NVIDIA Rubin平台集成了100%液冷基础设施,为其建设的每一家云服务商和数据中心运营商都在进行转型。</span></p>
<p><span style="font-weight: 400;">生态系统也在同步跟进。Schneider Electric旗下的先进冷却部门Motivair与NVIDIA的产品路线图合作近十年——其总裁兼首席执行官Richard Whitmore表示,当功率密度超过风冷可行性的临界点时,双方关系更加紧密。</span></p>
<p><span style="font-weight: 400;">“一旦每颗芯片的瓦数超过一定水平,液冷就成为必然,”Whitmore说。</span></p>
<h2><b>AI基础设施的冷却温度比你想象的更高</b></h2>
<p><span style="font-weight: 400;">业界长期存在一个误解,认为冷的数据中心就是高效的数据中心。几十年前,如果数据中心不像步入式冰柜那样寒冷,人们就会认为出了问题。</span></p>
<p><span style="font-weight: 400;">实际上,芯片能够承受的环境温度远高于这种直觉。硅处理器内部产生巨大的热量——进入全液冷芯片的冷却液温度为45摄氏度,离开时大约为55摄氏度,热量被芯片表面吸收。但性能并不会下降。</span></p>
<p><span style="font-weight: 400;">处理器继续全性能运行,因为液冷冷板将设备温度控制在经过验证的工作限值内,即使冷却液以45摄氏度进入机架。</span></p>
<h2><b>无风扇、无冷通道——完全不同的机器</b></h2>
<p><span style="font-weight: 400;">走进传统数据中心,你会注意到两件事:噪音——冷却风扇使总噪声水平达到85分贝以上,需要佩戴耳部防护;以及精心管理的热通道和冷通道,将冷空气推向组件。</span></p>
<p><span style="font-weight: 400;">Rubin架构改变了这一局面。</span></p>
<p><span style="font-weight: 400;">冷却液——由75%的水和25%的丙二醇组成——流过直接安装在处理器上的冷板,从源头带走热量。冷却液温度高达45摄氏度,意味着在许多气候条件下,设施回路无需启动机械冷水机组和噪音风扇即可排热。</span></p>
<figure id="attachment_94870" aria-describedby="caption-attachment-94870" style="width: 1200px" class="wp-caption aligncenter"><img fetchpriority="high" decoding="async" class="wp-image-94870 size-large" src="https://blogs.nvidia.com/wp-content/uploads/2026/06/liquid-cooling-pipes-1680x595.jpg" alt="" width="1200" height="425" srcset="https://blogs.nvidia.com/wp-content/uploads/2026/06/liquid-cooling-pipes-1680x595.jpg 1680w, https://blogs.nvidia.com/wp-content/uploads/2026/06/liquid-cooling-pipes-960x340.jpg 960w, https://blogs.nvidia.com/wp-content/uploads/2026/06/liquid-cooling-pipes-1280x454.jpg 1280w, https://blogs.nvidia.com/wp-content/uploads/2026/06/liquid-cooling-pipes-1536x544.jpg 1
查看缓存全文
缓存时间: 2026/06/22 07:31
# 比热水浴缸还热:45°C突破性技术为AI最大规模设备降温
来源:https://blogs.nvidia.com/blog/liquid-cooling-ai-factories/
热水浴缸的温度通常在38到40摄氏度之间——热到大多数人只能泡大约15分钟。而NVIDIA最新AI服务器的冷却液温度可以更高——高达45摄氏度(113华氏度)。正是这个更高的温度上限,让它们更加节能高效。
NVIDIA Rubin代AI基础设施是全球首个实现100%液冷的产品——每一块芯片、每一个网络组件,全部由液体在闭环中冷却,系统中没有任何风扇。这一液冷方法在NVIDIA DSX(https://www.nvidia.com/en-us/data-center/products/dsx/)AI工厂参考设计中进行了概述,该指南提供了设计、构建和运营整个AI工厂基础设施堆栈的最佳实践。
尽管每一代产品每瓦特提供的计算能力都显著提升,但全液冷AI计算基础设施使数据中心能够大幅降低冷却能耗——在超大规模下,这对数据中心整体能源使用产生实质性影响。
“NVIDIA DSX AI工厂参考设计实现了零水消耗——我们消除了大量电力消耗以及几乎全部用水,”NVIDIA数据中心冷却和基础设施总监Ali Heydari表示。“基于干冷器的设计是一个闭环系统,没有蒸发式水冷却——仅在少数情况下(在某些气候地区每年可能不到1%的时间)才需要使用冷水机组。”
从历史上看,仅冷却一项就占数据中心电力消耗的40%(https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/investing-in-the-rising-data-center-economy),使其成为提高效率、降低运营成本和能源需求的最重要领域之一。
行业估计(https://www.energystar.gov/products/data_center_equipment/5-simple-ways-avoid-energy-waste-your-data-center/raise-temperature)显示,冷水机组温度每升高1摄氏度,冷却能源成本可降低约4%。在大规模应用下,这些节省会迅速累积。一个50兆瓦的超大型设施通过转向液冷基础设施,每年可在冷却相关的能源和水成本上节省超过400万美元。
在适宜气候条件下,NVIDIA的45度液冷架构可以实现无需冷水机组的运行(仅使用干冷器),将设施冷却用水量从传统冷却塔系统每年每兆瓦约260万加仑降至接近零——水资源使用减少高达100%。
原因在于:传统风冷数据中心依赖大量冷空气来带走IT设备的热量,在炎热天气往往需要高能耗的冷却基础设施。而采用NVIDIA 45度液冷后,热量直接在芯片处被捕获,并通过以更高温度运行的液体回路传输,使得室外干冷器在一年中的大部分时间都能高效排热,同时显著减少机械冷却需求和设施用水量。
数据中心环境温度具有灵活性——温暖的夏季空气完全没问题,因为服务器内部没有任何部件依赖冷空气。液体承担了所有工作——并且相同的液体可以在闭环中循环,无需消耗新水来冷却芯片。
https://blogs.nvidia.com/wp-content/uploads/2026/06/LiquidCoolingInfra_montage_v4.mp4
## **行业新标准**
由于NVIDIA Rubin平台集成了100%液冷基础设施,每个为其构建的云提供商和数据中心运营商都在进行转型。
生态系统也在同步跟进。施耐德电气旗下先进冷却部门Motivair与NVIDIA的产品路线图合作已近十年,其总裁兼首席执行官Richard Whitmore表示,当功率密度突破风冷不再可行的门槛时,双方的关系进一步加强。
“一旦每颗芯片的瓦数超过一定水平,液冷就成为强制性要求,”Whitmore说。
## **AI基础设施冷却:比你想象的更热**
行业中长期以来存在一种误解,认为冷的数据中心就是高效的数据中心。几十年前,如果数据中心不像冰柜一样冷,人们就会认为出了什么问题。
实际上,芯片能够承受比这种直觉高得多的环境温度。硅处理器内部会产生巨大的热量——以45摄氏度进入全液冷芯片的冷却液,在吸收芯片表面的热量后,出口温度约为55度。然而,性能并未下降。
处理器继续以满性能运行,因为液冷冷板能将器件温度保持在经过验证的运行限值内,即使冷却液以45摄氏度进入机架也是如此。
## **无风扇、无冷通道——一台根本不同的机器**
走进传统数据中心,你会注意到两件事:噪音——冷却风扇将总噪音水平推至85分贝以上,高到需要佩戴听力保护装置;以及热通道和冷通道的物理布局——精心管理以将冷空气吹过组件。
Rubin架构改变了这一图景。
冷却液——75%的水和25%的丙二醇——流经直接放置在处理器上的冷板,从源头带走热量。将这种冷却液运行在高达45摄氏度的温度下,意味着在许多气候条件下,设施回路可以在不开启机械冷水机组和嘈杂风扇的情况下排热。
在AI工厂中,冷却液从冷却液分配单元流向服务器,形成闭环循环。这释放了超出节能的意义:完全消除用水的可能性。
在合适的地理位置——比如拥有稳定凉爽室外空气的地方——液冷数据中心可以通过冷却液分配单元将热量从源头捕获并传输到室外干冷器(本质上是位于建筑物外部的大型散热器盘管)来排热。
回路一次注满液体,在整个设施生命周期内保持闭环运行。而且,与传统的风冷基础设施相比,它在AI工厂内占用的空间大大减少。
“在正确的地理位置,配合正确的系统设计,你不需要任何制冷设备,”Whitmore说。“你只需在室外放置大型散热器盘管,利用空气温度进行所有冷却。这非常高效。”
地理条件的限制确实重要。一个位于苏格兰高地和一个位于亚利桑那州凤凰城的数据中心面临截然不同的现实。但即使在较温暖的气候地区,转向45摄氏度冷却液也能使运营商更接近那个无冷水机组的理想状态——可能只有一年中少数几天在室外空气温度过高时才需要开启冷水机组。
这种AI工厂新模式的另一个关键优势是废热回收的潜力,可以将AI工厂运营产生的余热用于为附近的商业或住宅建筑供暖。
## **此前无人解决的工程难题**
之前的液冷服务器是混合型的:GPU和CPU使用冷板,但系统的其余部分仍采用风冷,使用带翅片的散热器将热量散发到流动空气中。而在全液冷服务器中,这些组件的冷却需要完全重新设计以使用液体。
NVIDIA的热工程团队重新设计了这些组件处理热量的方式,设计了简化的冷却回路,通过单个入口和出口将液体分配到板上多个高功率芯片,从而实现了更整洁的托盘级冷却架构。
一个可见的结果是:Rubin服务器拥有干净、密封的前面板,而风冷服务器则有带孔的格栅。另一个结果是:全液冷服务器能实现比风冷服务器更高的机架密度,因此之前占用六个机架单元的系统现在只需两个——更多计算、更少空间、更少噪音。
液冷基础设施的架空管道通向强大的AI服务器。
AI工作负载并未变轻。推动数据中心建设的计算需求增长速度几乎超过其他任何类别的基础设施投资。
如果不提高计算冷却的效率,大规模运行AI的能源成本将随硬件同步增长。采用高达45摄氏度的液冷——比热水浴缸还热,对地球却更凉爽——是行业缩小这一差距的最重要工具之一。
*了解更多关于**液冷**(https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/)、**NVIDIA DSX**(https://www.nvidia.com/en-us/data-center/products/dsx/)AI工厂平台以及NVIDIA**节能AI基础设施**(https://www.nvidia.com/en-us/glossary/energy-efficiency/)的方法。*
相似文章
Nvidia表示其AI数据中心设计通过提高运行温度来大幅减少用水
Nvidia声称其针对Rubin代的全新全液冷数据中心设计,通过提高服务器运行温度并使用液冷,可将用水量降至接近零。
英伟达希望减少数据中心用水,但这并不等同于解决AI的水资源问题
英伟达宣布推出一种温水冷却系统,可显著降低数据中心现场用水量,但批评者指出,发电和芯片制造过程中的耗水问题仍未得到解决,这意味着总体水足迹仅部分减少。
初创公司受核反应堆启发的冷却系统或使数据中心更可持续
Ferveret,一家MIT衍生公司,将核反应堆的传热技术应用于数据中心液冷系统,将计算能效提升15%,并使每瓦特处理的token数增加35%,且零耗水。
为应对AI电力激增,数据中心迎来重新设计竞赛
AI公司正在重新设计数据中心,以应对激增的能源需求和基础设施压力。
找到了冷却 DGX 的方法
有用户报告称,在运行 Qwen3.5-122b 模型且 GPU 高负载的情况下,成功使用自来水为 DGX 服务器降温,并维持了安全的温度水平。