@yminsky: We gave @dwarkesh_sp a tour of one of our new GPU-filled data-centers. Much fun!

X AI KOLs Timeline 新闻

摘要

Jane Street's tech lead Ron Minsky and physical engineering team lead Daniela Corvo gave a tour of a Texas data center retrofitted for high-density liquid-cooled GPU training, detailing liquid cooling systems, power distribution challenges, leak detection, and the opportunity cost of compute resources.

We gave @dwarkesh_sp a tour of one of our new GPU-filled data-centers. Much fun! https://t.co/WpmrVd46bf
查看原文
查看缓存全文

缓存时间: 2026/05/16 13:18

We gave @dwarkesh_sp a tour of one of our new GPU-filled data-centers. Much fun!

https://t.co/WpmrVd46bf


TL;DR: 简街(Jane Street)技术负责人罗恩·明斯基(Ron Minsky)与物理工程团队负责人丹妮拉·科尔沃(Daniela Corvo)带领参观了德克萨斯州一个改造后用于高密度液冷GPU训练的数据中心,详细介绍了液冷系统、配电挑战、泄漏检测以及计算资源的机会成本。

数据中心概览:从风冷到液冷转型

这座位于德克萨斯州的训练数据中心最初并非为处理当前的高功率密度机架而设计。传统风冷机柜功率通常在10-40千瓦,而新的GB300机柜峰值功耗达到约140千瓦。工程团队对设施进行了改造,引入了液冷能力。目前约85%-90%的热负荷通过冷板带走,剩余15%仍采用风冷。

液冷的关键在于从背后快速接头将18°C的冷却液送入GPU顶部的冷板,之后以较高温度流出。每个滑板在插入时自动连接液体供应、回流以及54伏特电源。这种设计使得高密度机架可以在原有场地中部署——尽管电力容量受限于电网分配的总量,但高密度布局节省了空间,甚至可以在大厅中腾出区域用于其他用途(如播客录音室)。

液冷系统的工程细节

泄漏检测与安全性

数据中心内传统上不允许有水,但液冷引入了泄漏风险。机柜内部地板下铺设了泄漏检测绳,一旦检测到液体,管理侧交换机会触发报警。地板下方也装有泄漏检测装置,可通过阀门隔离故障区域。泄漏并不常见,但作为新技术,长期可靠性仍需观察。

冷却液与热交换

建筑循环冷却回路(约18°C)与内部称为“技术水回路”的液体通过热交换器换热。技术水必须是蒸馏水或去离子水与25%丙二醇的混合液,过滤精度25微米,以防止细菌或藻类滋生堵塞冷板。丙二醇抑制微生物生长,同时保证高效传热。

流量平衡

每个机柜前装有阀门和超声波流量计,根据散热负荷上限预设流量。通过精密调节确保管道起始端与末端机柜获得均衡的冷却液量。

电力系统与配电挑战

断路器与负载管理

电力通过母线槽分配,每条母线承载的机架数量被严格控制,防止过载跳闸。断路器面板负责将电力分到不同路径。数据中心超配了配电系统,允许在不同排之间移动电力,以适应CPU或GPU的增减需求。但电力灵活性不如冷却:冷却可通过扩大管道尺寸调整流量,而电力受断路器电流限制,必须精确安排负载。

峰值负载控制

英伟达在新机柜中引入了负载管理系统,通过增加大容量电容和软件优化使峰值负载接近平均负载,保持曲线平坦。简街自研的监控系统从断路器中获取信息,感知拓扑结构,可在必要时自动关闭功耗过大的工作负载,避免跳闸。因为硬件极其宝贵,运营策略是尽可能接近极限运行(超额配置),同时保留安全措施以受控方式回退。

中断代价

若断路器因电流过高跳闸,正在运行的训练任务可能中断,需要从检查点恢复,造成巨大的机会成本。

计算资源的机会成本

罗恩·明斯基强调,在计算资源相对缺乏弹性的环境中,机会成本往往主导硬件成本。新计算资源上线需要时间,内部会出现争抢,使得计算变得极其昂贵。因此,数据中心会预先建设一些余量,以便业务需要时能快速部署更多GPU。

网络布线:光纤与铜缆

高密度部署带来了布线挑战。整个设施使用了约8000公里光纤。有趣的是,笼子外的大多数线缆是光纤,但最快的内部连接采用铜缆,因为电子在铜中的传输速度比光在光纤中快(指信号传播速度)。延迟优化贯穿在不同层面的网络速率中。

冷却基础设施的规模

液冷系统包含缓冲罐(充当热电池),用于应对电源中断后冷水机重启的间隙,存储能量持续冷却GPU,同时缓冲工作负载波动引起的温度变化。传统风冷单元仍在部分区域使用,将热空气抽回冷却后重新送入大厅。轮式阀门用于隔离泄漏点维修——拉出链条转动阀门即可关闭或打开。

从“蜂巢”到现代数据中心

二十年前,简街的第一个计算集群“蜂巢”只是六台戴尔盒子叠在一起放在一排尽头。如今,计算设备本身占据的空间越来越小,而支撑这些计算的基础设施(变压器、冷水机)规模却越来越大。数据中心变成了由计算设备与支撑基础设施共同构成的庞大设施。


Source: https://www.youtube.com/watch?v=8J-GUnfSqeE

相似文章

@0xCheshire: Jane Street 刚刚公开了得州 AI 训练中心的内部画面: 4032 张 GPU 、 8000 公里光纤,以及因为风冷压不住而全面启用的液冷系统。 但真正令人震撼的,是这个算力巨兽的起点。 技术负责人 Ron Minsky 回忆,…

X AI KOLs Timeline

Jane Street 公开了其位于得克萨斯州的 AI 训练中心内部画面,拥有 4032 张 GPU、8000 公里光纤和全面液冷系统,并回顾了从最初 6 台 Dell 主机的简陋起点到如今极致交易系统的 20 年进化历程。