@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

X AI KOLs Following 论文

摘要

OpenInfer 展示“垂直拆解”，通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层，并配合自定义 SLA 感知调度器，将 Qwen 3.5 27B 的吞吐量提升约 50%。

我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分。原来你 GPU 旁边那块 CPU 并不是摆设，只是我们以前一直把它当摆设。完整拆解 ↓

查看原文

查看缓存全文

缓存时间: 2026/04/21 19:23

# 垂直解耦：在异构芯片上最大化模型吞吐来源：https://openinfer.io/news/2026-04-20-vertical-disaggregation-maximizing-throughput-on-heterogeneous-silicon/?twclid=24yjtz7tdz0hvmqz071f6wxoo **一句话总结——**我们用动态调度器+定制运行时，在两种 AWS 实例（Intel Xeon + Nvidia GPU 与 AMD EPYC + Nvidia L40S）上联合部署了 Qwen 3.5 27B。通过单节点内 CPU/GPU 协同执行，**容量提升近 50%**，却没多花一张 GPU 钱。 ## 尴尬的中间地带 LLM serving 的决策通常只有两条路：横向加 GPU，或忍受单卡延迟天花板。70B 以上的稠密模型显然要多卡；7B 以下显然单卡就够。**Qwen 3.5 27B 两头不靠**，我们称之为“尴尬的中间地带”。 OpenClaw Beta 需要生产级吞吐，起手方案跟大多数团队一样：两节点 Pipeline Parallelism（PP-2），因为没有 NVLink 这类高速互联。对 27B 稠密模型，节点间同步开销占执行时间相当可观。 PP-2 基线 vs. 单节点垂直解耦。流水线并行每次激活同步都要卡住 B 节点；垂直方案消除节点延迟，同时让两颗处理器并行干活。问题出在结构上。Pipeline Parallelism 引入严格延迟依赖：B 节点必须等 A 节点前向完成、把激活值通过网络传过来才能开工。每次 decode 都要花大把时间等网络同步——每个 token 一个流水线气泡。我们换思路：与其横向扩，不如先问**单节点里还能塞满什么**？答案就是垂直解耦——一节点，两颗处理器并行。L40S GPU（48 GB VRAM）负责长上下文 prefill 和高 SLA decode；EPYC 7R13 CPU（32 核）负责短提示、标准 SLA 请求。两边共用同一份 Q4_0 权重，会话可在后端间迁移，无需重算。唯一跨处理器成本是 PCIe 上下文迁移，只在 SLA 提升时付一次，不是每个 token 都付。 ## 异构路由：batchEngine 核心组件是 `batchEngine`——一个感知 SLA 的调度器，按 SLA 等级、上下文长度等运行时参数智能路由。长上下文 prefill 离不开 GPU 的大规模并行 CUDA/Tensor Core；但短提示、标准 SLA 请求用 GPU 却是高射炮打蚊子：你为用不到的并行度买单，还把高吞吐 batch 打断去服务几百个 token。 batchEngine 路由逻辑。请求到达时按上下文长度、SLA 等级等信号分类。GPU 负责长上下文与延迟敏感任务；CPU 负责短上下文、标准 SLA 请求。 ## 每周期都算数：定制内核把请求路由到 CPU 的前提是 CPU 能打得过 GPU。现成 BLAS 库原是为 FP32/FP64 设计，对量化推理并不友好。我们给 EPYC 7R13 的 Zen3/AVX2 指令集定制了 Q4_0 内核。 > 整个设计有一条硬约束：CPU 与 GPU 路径**共用同一份 Q4_0 权重格式**。输出 deterministic，请求可在 prefill/decode 边界跨后端迁移，无需重算。 EPYC 7R13（Zen3 / AVX2）与 CUDA 路径内核优化概览：nibble 解包、点积、scale 应用、batch decode，以及 GPU Q4_0 → Tensor Core 路径。 ## 处理器间上下文迁移异构 serving 最难的不是路由，也不是内核，而是上下文。会话的 KV cache 在 GPU VRAM 里，下一跳却要跑在 CPU 上，要么拷、要么重算，生产环境都接受不了。我们用**文件-backed KV cache**解决。上下文在真正需要前才被迁移到目标处理器内存，自然形成 OS 透明管理的三层存储：三层存储层级。VRAM 放活跃 GPU 会话；RAM 托底 CPU 驻留 KV cache；NVMe 做第三层，内核把不活跃会话换出，访问时透明换入。 ## 结果从 PP-2 切到单节点垂直解耦，生产关心的指标全面抬升。 AWS g6e.16xlarge（L40S + EPYC 7R13）实测。纯 GPU 可跑 1 个满上下文会话，40 tok/s；CPU 侧聚簇约 10 会话，总吞吐 20 tok/s。内存受限场景下，**算力解锁峰值 +50%**——无需额外 GPU。 ## 结论主流认知把 CPU 当“编排”、GPU 当“推理”，结果单节点里大片算力闲置。通过 SLA 感知调度器 + 优化内核 + 上下文迁移，我们把 CPU 当成真正的推理协处理器，让 GPU 只干配得上它成本的工作。换来的不只是更高吞吐，还有更可预测的延迟——生产环境里，延迟确定性跟容量一样重要。 > **通用原则：**伸手买新 GPU 之前，先审计你手上已有的硅片。

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

相似文章

@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS，期待他们...

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

1800美元（GPU成本，使用P2P运行Qwen/Qwen3.6-27b-FP8，262K上下文，BF16 KV缓存，55 tok/s）

RTX Pro 4500 Blackwell - Qwen 3.6 27B？

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

提交意见反馈