标签
基于客户模式,讨论大规模LLM服务中预填充-解码分离的微妙现实,并在AMD + vLLM上进行了验证。
增量压缩权重同步技术已合并到 slime 中,实现 Megatron ↔ SGLang 分离式部署的无损增量同步,增强大规模强化学习。