kv-offload

标签

Cards List
#kv-offload

@vllm_project: vLLM v0.21.0 发布!367 次提交,来自 202 位贡献者(其中 49 位新贡献者)。亮点:KV 卸载 + HMA、带思考预算的推测解码(适用于推理模型)……

X AI KOLs Following · 2026-05-16 缓存

vLLM v0.21.0 已发布,新增 KV 卸载 + HMA、面向推理模型的带思考预算的推测解码、适用于 DSR1/Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行,以及 C++20 + Transformers v5 基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈