Project Blackwell:最终会成功——让RTX Pro 6000在Dell R730上以650K上下文运行

Reddit r/LocalLLaMA 新闻

摘要

一名开发者记录了为在旧款戴尔PowerEdge R730服务器上运行NVIDIA RTX Pro 6000 Blackwell GPU所需进行的大量硬件和固件破解工作,从而实现了650K上下文长度的本地AI推理。

# Project Blackwell-R730: 最终会跑起来的 一台2016年的戴尔PowerEdge R730、一块RTX Pro 6000 Blackwell、固件考古、SlimSAS混乱和不合常理的坚持,如何变成一台拥有650k上下文的本土AI盒子。**调试过程中也大量使用了AI,因为在某个节点,580多个标签页不再是研究方法,而开始变成分布式认知。——另外我不擅长 Reddit,算了,不是我的问题,是那可恨的 Reddit 图库,抱歉没有标注,请自行脑补各个阶段。** 这不是一份推荐配置指南。这是一部纪录片,记录为了让一个根本不想工作的东西工作起来,需要做的那些荒唐事。 https://preview.redd.it/3uwwzjm3h84h1.jpg?width=1542&format=pjpg&auto=webp&s=0524e32aad763d3ff087e195ea0b395410a322fb 图1是最终的机架场景:车库数据中心、宿主R730、外置GPU机箱以及周边的发热设备。 ## 天真的假设 最初的假设很简单:大服务器、大电源、大PCIe插槽、大风量、昂贵的GPU。所以GPU应该能工作。这个假设很合理。但它也错了。 R730很多方面物理上是胜任的,但它属于一个不同的PCIe假设时代。RTX Pro 6000则属于一个拥有大BAR、现代固件预期、激进功耗行为以及工作站级物理尺寸的世界。R730看了看它,大致说了句:不行。 https://preview.redd.it/rzsury35h84h1.jpg?width=1542&format=pjpg&auto=webp&s=0fc13669c7fb124c00086f38ea2e09dc434f7a76 https://preview.redd.it/q2esteg5h84h1.jpg?width=1542&format=pjpg&auto=webp&s=8964cfe7987afa5d075571337f2aa473535a31f1 图2和图3展示了基础系统和早期的内部加速器/拓扑实验。 ## 机械安装:风扇导流罩之战 第一个真正的硬仗是物理层面的。Slot 4最初很有吸引力:拓扑特性更好,看起来也更干净。但把显卡装在那里会顶开Riser 3,从而切断我需要的电源来源。Slot 6可以让Riser 2和Riser 3都在位,这样我就能通过两个Riser给RTX供电。不幸的是,Slot 6让GPU与风扇导流罩和气流塑料件发生了冲突。所以导流罩就变成了可以协商的东西。 目标不是随意破坏戴尔的气流工程。目标是移除那些阻止显卡物理安装的几何结构,同时尽可能保留有用的气流行为。最终显卡成功就位了。那一刻是第一个巨大的士气提升:我靠,终于特么装进去了。 https://preview.redd.it/as7sr947h84h1.jpg?width=1542&format=pjpg&auto=webp&s=8d87ad39b95325065ada611f3b4f030acea20648 https://preview.redd.it/3kt4dbm7h84h1.jpg?width=1542&format=pjpg&auto=webp&s=128af03b1c1a5a8b4a0b196ebb5f39a22b632353 图4和图5是风扇导流罩的协商阶段和最终内部安装。但物理安装并不是胜利。它只是允许我去发现下一个失败。 ## 电源拓扑:刚好能出错的配置 当显卡插在Slot 6并且由两个Riser供电时,系统至少能走到足够远的地方,遇到真正的障碍:PCIe资源分配。插槽和Riser的电源安排给了GPU足够的电力去尝试。这很重要,因为在此之前每个症状都很模糊。是物理问题?电源问题?固件问题?戴尔拒绝配合?还是显卡本身的问题?一旦系统稳定地出现BAR分配失败,问题就变得更技术性,少了一些玄学成分。这是进步。 ## BAR资源争夺战 这是最漫长、最技术、最令人筋疲力竭的阶段。此时我在`lspci`里完全看不到NVIDIA GPU。没有任何有用的信息。没有计算设备。没有半点胜利。只有失败。 RTX Pro 6000需要的PCIe BAR资源,R730的固件根本就不想正确分配。Above 4G / 大MMIO的处理要么被隐藏,要么不足,要么受到戴尔平台假设的限制。这演变成了BIOS提取、IFR检查、隐藏设置搜寻、ACPI / DSDT调查、`_CRS`资源描述符分析、MMIO窗口数学计算、十六进制算术、改点什么、重启、弄坏别的、撤销改动、再试一次。 固件工作的有趣之处在于,你完全可以通过踩碎别的东西来修复一个地址范围。然后你就没有GPU问题了。你有了一个不同的总线问题、RAID控制器问题或者启动问题。所以BAR战争不是一次突破。它是一段漫长的探索过程,弄清楚R730究竟如何描述和分配PCIe内存资源,然后试图说服它像一个新平台那样工作。 https://preview.redd.it/73ej8o9ah84h1.png?width=879&format=png&auto=webp&s=dee1c86a4a88ba66e18dcb8c376b8a5d2200c2e8 图6是那种成为战争技术核心的ACPI / BAR资源工作。如果BAR不工作,其他一切都没意义。 ## 内核参数轮盘赌 固件工作之后是Linux启动参数阶段。这是"试遍所有PCIe参数直到发生点不同"的阶段。有些组合帮助了资源分配。有些组合破坏了系统不相关的部分。有几个组合严重禁用了RAID控制器路径,导致机器找不到需要的东西。 模式变成了:改变内核参数,重启,观察失败,比较日志,重复。这不是优雅的工程。这是堑壕战。但它慢慢缩小了问题范围。 ## iDRAC 有自己的想法 在某个环节,另一个不愉快的现实变得明显:双1100W PSU的R730并不意味着2200W可以随意分配给GPU友好型电源。服务器装了双1100W电源。但那没用。iDRAC已经认定现实大约是650W,并且不接受申诉。这很误导,因为电源症状看起来可能像PCIe症状、BAR症状或驱动症状。 到了那时,继续与戴尔的电源域对抗已经没意义了。 https://preview.redd.it/q723akach84h1.jpg?width=2048&format=pjpg&auto=webp&s=76827b4ea5f3b162ff7dca70942d750a9690e60d 图7展示了电源监控阶段,这个阶段促成了外置化的决定。R730将继续作为宿主:CPU、内存、存储、PCIe根复合体、管理。GPU将变成它自己的独立设备。这就是外置化的转折点。 ## 被遗弃的Antec机箱登场 手头有一个2000年代早期的旧Antec机箱。沉重的钢材。丑得恰到好处。做工像是准备被扔出卡车还能生存下来。起初它只是一个方便的空箱子。后来它显然近乎完美:巨大的内部容积、坚固的钢制框架、真正的前置过滤、大面积气流通道、标准ATX电源支持、后部PCI插槽、足以安装PCIe插槽转接卡的空间、以及足够空间布置线缆而无需急弯。 现代机箱通常围绕玻璃、RGB和美学来优化。这东西则是围绕在Pentium 4时代生存下来而优化的。完美。 主板被拆掉。旧的线缆乱麻被拆除。这个机箱变成了专用的GPU气流和电源设备。 https://preview.redd.it/w52wd05eh84h1.jpg?width=1542&format=pjpg&auto=webp&s=48b3c177bf64d4b2563543b8b5154b9d1ffbc55f https://preview.redd.it/8mey24leh84h1.jpg?width=1542&format=pjpg&auto=webp&s=0cbe6e91aba45ac4faad509f47625e12b25f1efc https://preview.redd.it/felvr3zeh84h1.jpg?width=1542&format=pjpg&auto=webp&s=7d608fcc725c1fe8a20fd5fbde77da3924ae0556 图8到图10展示了外置化转折点和RM1200e电源域方案。 ## SlimSAS、重定时器和外置PCIe方案 最终架构变成了: ```text Dell R730 PCIe插槽 -> 宿主端PCIe/SlimSAS重定时卡 -> SlimSAS线缆 -> GPU端SlimSAS转PCIe x16插槽适配器 -> RTX Pro 6000 ``` 这避免了使用原始的带状连接器,使整个构建有了更整洁、更易于维护的路径。关键设计选择是外置化GPU供电、使用重定时器辅助信号完整性,以及在两边使用SlimSAS接口。
查看原文

相似文章

RTX Pro 4500 Blackwell - Qwen 3.6 27B?

Reddit r/LocalLLaMA

一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。