@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
摘要
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分。原来你 GPU 旁边那块 CPU 并不是摆设,只是我们以前一直把它当摆设。完整拆解 ↓
查看缓存全文
缓存时间: 2026/04/21 19:23
# 垂直解耦:在异构芯片上最大化模型吞吐
来源:https://openinfer.io/news/2026-04-20-vertical-disaggregation-maximizing-throughput-on-heterogeneous-silicon/?twclid=24yjtz7tdz0hvmqz071f6wxoo
**一句话总结——**我们用动态调度器+定制运行时,在两种 AWS 实例(Intel Xeon + Nvidia GPU 与 AMD EPYC + Nvidia L40S)上联合部署了 Qwen 3.5 27B。通过单节点内 CPU/GPU 协同执行,**容量提升近 50%**,却没多花一张 GPU 钱。
## 尴尬的中间地带
LLM serving 的决策通常只有两条路:横向加 GPU,或忍受单卡延迟天花板。70B 以上的稠密模型显然要多卡;7B 以下显然单卡就够。**Qwen 3.5 27B 两头不靠**,我们称之为“尴尬的中间地带”。
OpenClaw Beta 需要生产级吞吐,起手方案跟大多数团队一样:两节点 Pipeline Parallelism(PP-2),因为没有 NVLink 这类高速互联。对 27B 稠密模型,节点间同步开销占执行时间相当可观。
PP-2 基线 vs. 单节点垂直解耦。流水线并行每次激活同步都要卡住 B 节点;垂直方案消除节点延迟,同时让两颗处理器并行干活。
问题出在结构上。Pipeline Parallelism 引入严格延迟依赖:B 节点必须等 A 节点前向完成、把激活值通过网络传过来才能开工。每次 decode 都要花大把时间等网络同步——每个 token 一个流水线气泡。
我们换思路:与其横向扩,不如先问**单节点里还能塞满什么**?
答案就是垂直解耦——一节点,两颗处理器并行。L40S GPU(48 GB VRAM)负责长上下文 prefill 和高 SLA decode;EPYC 7R13 CPU(32 核)负责短提示、标准 SLA 请求。两边共用同一份 Q4_0 权重,会话可在后端间迁移,无需重算。唯一跨处理器成本是 PCIe 上下文迁移,只在 SLA 提升时付一次,不是每个 token 都付。
## 异构路由:batchEngine
核心组件是 `batchEngine`——一个感知 SLA 的调度器,按 SLA 等级、上下文长度等运行时参数智能路由。长上下文 prefill 离不开 GPU 的大规模并行 CUDA/Tensor Core;但短提示、标准 SLA 请求用 GPU 却是高射炮打蚊子:你为用不到的并行度买单,还把高吞吐 batch 打断去服务几百个 token。
batchEngine 路由逻辑。请求到达时按上下文长度、SLA 等级等信号分类。GPU 负责长上下文与延迟敏感任务;CPU 负责短上下文、标准 SLA 请求。
## 每周期都算数:定制内核
把请求路由到 CPU 的前提是 CPU 能打得过 GPU。现成 BLAS 库原是为 FP32/FP64 设计,对量化推理并不友好。我们给 EPYC 7R13 的 Zen3/AVX2 指令集定制了 Q4_0 内核。
> 整个设计有一条硬约束:CPU 与 GPU 路径**共用同一份 Q4_0 权重格式**。输出 deterministic,请求可在 prefill/decode 边界跨后端迁移,无需重算。
EPYC 7R13(Zen3 / AVX2)与 CUDA 路径内核优化概览:nibble 解包、点积、scale 应用、batch decode,以及 GPU Q4_0 → Tensor Core 路径。
## 处理器间上下文迁移
异构 serving 最难的不是路由,也不是内核,而是上下文。会话的 KV cache 在 GPU VRAM 里,下一跳却要跑在 CPU 上,要么拷、要么重算,生产环境都接受不了。
我们用**文件-backed KV cache**解决。上下文在真正需要前才被迁移到目标处理器内存,自然形成 OS 透明管理的三层存储:
三层存储层级。VRAM 放活跃 GPU 会话;RAM 托底 CPU 驻留 KV cache;NVMe 做第三层,内核把不活跃会话换出,访问时透明换入。
## 结果
从 PP-2 切到单节点垂直解耦,生产关心的指标全面抬升。
AWS g6e.16xlarge(L40S + EPYC 7R13)实测。纯 GPU 可跑 1 个满上下文会话,40 tok/s;CPU 侧聚簇约 10 会话,总吞吐 20 tok/s。内存受限场景下,**算力解锁峰值 +50%**——无需额外 GPU。
## 结论
主流认知把 CPU 当“编排”、GPU 当“推理”,结果单节点里大片算力闲置。
通过 SLA 感知调度器 + 优化内核 + 上下文迁移,我们把 CPU 当成真正的推理协处理器,让 GPU 只干配得上它成本的工作。换来的不只是更高吞吐,还有更可预测的延迟——生产环境里,延迟确定性跟容量一样重要。
> **通用原则:**伸手买新 GPU 之前,先审计你手上已有的硅片。
相似文章
@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS,期待他们...
Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
1800美元(GPU成本,使用P2P运行Qwen/Qwen3.6-27b-FP8,262K上下文,BF16 KV缓存,55 tok/s)
一位用户分享了使用4块RTX 5060 Ti 16GB显卡(支持P2P)运行Qwen3.6-27B-FP8的配置,在262K上下文下实现55 tok/s的速度,强调单用户推理成本仅约1800美元。
RTX Pro 4500 Blackwell - Qwen 3.6 27B?
一位开发者分享了在搭载 NVIDIA RTX Pro 4500 Blackwell 显卡的服务器上,使用 llama.cpp 运行 Qwen3.6-27B 模型的本地推理基准测试数据及 systemd 配置。该帖文征集了提升吞吐量的优化建议,并探讨了更大模型的潜在应用场景。
@rumgewieselt:现在变得疯狂了……三块 1080 Ti(Pascal架构,33GB VRAM)Qwen 3.6 27B MTP 搭配 196K TurboQuant,持续 ~28-30 t/s
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。