标签
vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用,支持跨节点前缀缓存,高效服务具有高令牌重用的代理工作负载。
Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。