RTX 50系列的外部时钟生成技术

Hacker News Top 新闻

摘要

来自Xtreme Systems的超频玩家针对RTX 5090开发了一种外部时钟生成技术,通过使用Elmor External Clock Board(ECB),绕过了Nvidia在软件层面对显存和交叉开关时钟频率的限制。该方法目前仍在完善中,通过硬件级信号注入将GPU时钟提升至出厂限制以上,在基准测试中取得了显著的性能提升。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:12

# RTX 50 系列外部时钟生成 来源:https://www.xtremesystems.us/post/external-clock-generation-on-rtx-50-series **突破 Nvidia 对 RTX 5090 施加的性能限制** #### **作者:Xtreme Systems 的 PickleRick****感谢 Xtreme Systems 的 Turbogear,没有他的专业知识和射频工程背景,这一切都不可能实现** **特别感谢 ElmorLabs** **简要历史** 从 1970 年代末,经历整个 80 年代,直到 90 年代初,许多最早的超频都是通过更换晶振来实现的。那个年代的系统通常没有通过软件或跳线调整时钟频率的功能。希望突破这些芯片出厂频率的人,不得不通过更换驱动芯片时钟速度的参考时钟来实现。在某些情况下,通过这种方法甚至实现了高达 16,000% 的超频。 整个 1990 年代,主板制造商开始加入通过跳线超频的选项,最终实现了对 FSB 时钟速度、内存频率档位等的软件控制。 从 2000 年代初期一直到今天,使我们能够对显卡进行超频的软件控制在很大程度上是相当开放的,包括软件时钟速度工具、vBIOS 编辑器、电压工具等。从 Pascal 系列 GPU(GTX 10 系列)开始,vBIOS 编辑对大多数消费者来说不再是一个选项,只剩下核心时钟和显存时钟调整,在某些情况下还可以通过 XOC vBIOS 和相关软件工具进行电压和功耗限制的更改。随着时间的推移,提供给我们的工具能力被逐渐削减。 如今,在高端 RTX 50 系列显卡上,我们已经无法控制将显存时钟速度推至极限。而控制互联速度的隐藏时钟(如 crossbar,类似于 Intel 的 D2D、环形总线,或 AMD 的 FCLK)只能通过交叉刷写 vBIOS 进行有限的调整。 **理论** 在高端 Nvidia GPU(如 RTX 5090)上,我们这些超频玩家中有许多人正在对芯片进行 crossbar 时钟筛选,范围在 100MHz 以内,以及 NVIDIA 通过 VF 曲线设定的 80mV 股票电压范围内。作为参考,crossbar 时钟为 2600MHz 的 RTX 5090 被认为是较差的,而 crossbar 时钟为 2700MHz 且同时能维持较高 GPU 核心频率的芯片则被认为是"金片"。因此,我们的假设是:如果我们能够同时调整显存和 xBAR 时钟,是否能将这些芯片真正推至极限? **测试/问题** Turbogear 和我花了几个星期反复尝试,让一款名为 Elmor External Clock Board(ECB)的产品在 50 系列 GPU 上运行。这些改装后的首批跑分结果明显超出了我们的预期,仅使用一台入门级水冷冷水机就超过了多项 LN2 跑分成绩。 目前这个改装仍处于非常初级的阶段,存在一些问题,但已经足以产生稳定的高分 3D 显卡跑分结果。如果改装的线路走线不够理想,仅仅是站在 GPU 附近或快速走动都可能导致崩溃,甚至完全无法开机。 对于 RTX 50 系列 GPU,锁相环(PLL)期望接收约 1.15 VPP 交流耦合的正弦/模拟波形作为输入。Elmor ECB 在其 XTAL 输出接口上产生 1.6 VPP 交流耦合的方波/数字波形。普通导线上的信号完整性也是一个问题,许多早期尝试都因这些挑战而失败。由于 GPU 核心内部的 PLL 会对信号产生影响,且其特性在任何公开规格文件中均无记录,因此调整电路使其正常工作非常困难。我们需要将信号的 VPP 降低到安全水平,以免损坏 PLL,同时还要确保 GPU 能够正常开机。我们尝试了分压电路、RF 衰减器和低通滤波器等多种组合。这些元件各有帮助,但也带来了新的问题。 总结来看,目前与 Elmor ECB 配合效果最好的方案是使用 20 欧姆串联电阻、1800mV 输出和最小驱动强度。这会产生一种在示波器上看起来远非理想的三角波形,然而仍然允许显卡正常开机和跑分。同时产生约 1.2V 的在路 VPP,在合理范围内。尝试通过外部滤波器、分压电路和 RF 衰减器向显卡输入干净信号的效果参差不齐。低通滤波器让信号在示波器上看起来很好,显卡也能开机,但反射问题导致 VPP 随频率变化到远超规格的数值。在低通之后加入 RF 衰减器解决了这个问题,但又导致无法开机。 **结果** 在目前测试的显卡中,我们实现了相当于 MSI Afterburner 中 RTX 5090 显存滑块 +5467 的效果,以及约 2920MHz 的 crossbar 时钟。最终得分超出了我们的预期,我知道这会有助于提高分数,但没想到提升幅度如此之大。 最初我从较低的核心时钟偏移测试开始,将有效显存时钟与指定 vBIOS 的正常限制相匹配。在 Port Royal 中,我看到提升 crossbar 带来了约 500 分的增益,将显存超过常规限制又带来了大约 200 分的增益。在将冷却液温度再降低 7°C 并提升时钟后,我在 Port Royal 中比之前的最高分提升了 1500 分。 NVIDIA 报告的时钟速度将会偏差,因为它们是基于 27MHz 参考时钟计算的。感谢 Xtreme Systems 的 ASGxx 创建了一个计算器来轻松计算真实时钟频率;您可以在以下地址找到它:https://www.hofrank.com/ecb **操作方法** 免责声明:对于因使用外部时钟发生器(ECB)或本文所述的任何硬改操作而导致的任何硬件损坏、损失或毁坏(包括 GPU 永久损坏),本人概不承担任何责任。此改装仍需大量改进,我才会认为它是一个合适的解决方案。您完全自行承担风险。 **所需材料** - Elmor ECB - 加热台 - 热风枪 - 30 AWG 漆包线 - 0603 封装 20 欧姆电阻 - Kapton 胶带 - 透明/白色快速固化 UV 阻焊膜(应力释放用) - UV 固化灯 - SPDT 微动开关或 JST-XH 连接器 - 常规焊接设备/知识 第 1 步:使用加热台、热风枪和一些助焊剂,从 GPU 上移除原厂 XTAL 晶振。使用 Kapton 胶带保护核心和显存 BGA 封装,避免直接受到热风冲击。 第 2 步:为保留通过开关或跳线切换回原厂状态的能力,将晶振水平翻转。创建 3 根跳线。2 根连接地焊盘之间,1 根连接 XTAL 输出焊盘之间。 第 3 步:将漆包线引至 GPU PCB 上的 XTAL 输入焊盘,以及晶振振荡器本身剩余的焊盘(同轴线在此处可能是理想选择,但在应力释放方面存在挑战,GPU PCB 上的这些微小焊盘非常脆弱,核心边缘与焊盘之间的走线长度极短,我认为在 Astral 板型布局上将需要使用同轴线)。在我为水冷/冷水机使用而改装的 5090 上,我将这些导线引至一个小型 SPDT 开关,既有助于应力释放,也能保持导线长度短;用于 LN2 冷头时,我改为使用 JST-XH 连接器。使用了 Relife 品牌的透明/白色快速固化 UV 阻焊膜来帮助这个敏感焊盘的应力释放。 第 4 步:将这些导线引至连接器(用作跳线/输入)或开关。(RF 开关在此处是理想选择,Turbogear 目前正在研究这个问题,但可能会带来额外的挑战。)注意避免将这些导线走线靠近任何电感或 MOSFET,避免急弯,并尽可能保持导线短。在我们的测试中,导线走线和长度对于 GPU 能否开机至关重要,这进一步证明了同轴线可能是理想选择这一观点。 开关方式 跳线方式 第 5 步:在 Elmor ECB 扩展板上安装一个 20 欧姆 0603 串联电阻,并将信号线和地线引至同一块板上。再次注意,尽可能保持这些导线短。如果使用跳线方式,制作一个 JST-XH 跳线,将原厂 XTAL 与 XTAL 输入引脚相连。 水冷开关安装方式 LN2 跳线安装方式 第 6 步:在连接到 GPU 之前,将 Elmor ECB 输出 2 设置为 2mA 驱动强度和 1800mV。务必非常小心,不要误操作 DS 选项,因为这将发送高 VPP,可能损坏位于 GPU 核心内部的 PLL。Nvidia 50 系列的原厂 XTAL 频率为 27MHz。将 GPU 连接到 ECB 上的 XTAL 端口,并在开机前先给 ECB 通电。 在测试中我们发现,必须使用 HDMI 和能够接受超出范围信号的显示器。此改装会对 GPU 上的所有模块进行超频,包括 HDMI、PCIe、xBAR、显存、核心以及 PWM 风扇转速。它类似于主板上的 BCLK 超频。 开机成功后,可以分步调高频率,每次最多 0.3-0.4。超过此范围可能导致稳定性问题。ECB 频率会随负载温度变化,目前测试的显卡能够达到 28.7-29.2,具体取决于芯片质量和温度。 在测试中,某些主板允许 GPU 在高于 27MHz 的情况下正常开机,而其他主板则会强制进入 CSM 模式和/或启用集成显卡。

相似文章

[基准测试] 5090RTX:提示解析、Token 生成与功耗等级

Reddit r/LocalLLaMA

一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。