标签
用户发现,Threadripper 工作站主板上一处隐藏的 PCIe 2.0 x4 电气限制导致四块 RTX 3090 中的一块性能受限,从而影响了多 GPU 大语言模型推理性能。通过调整插槽布局并切换至张量分裂模式,Mistral 128B 的吞吐量从约 11 tok/s 翻倍至约 24.7 tok/s。
一名开发者记录了为在旧款戴尔PowerEdge R730服务器上运行NVIDIA RTX Pro 6000 Blackwell GPU所需进行的大量硬件和固件破解工作,从而实现了650K上下文长度的本地AI推理。