agentic-workloads

#agentic-workloads

@KVCache_AI: Mooncake现在支持KV缓存的SSD卸载。随着智能体工作负载成为常态，KV缓存的生存时间正在…

X AI KOLs Timeline ↗ · 2026-07-15 缓存

Mooncake宣布支持KV缓存的SSD卸载，能够经济高效地将KV缓存容量扩展到DRAM之外，适用于长时间运行的智能体工作负载。分析显示，双峰复用模式使得分层存储更加高效。

0 人收藏 0 人点赞

#agentic-workloads

Reddit r/LocalLLaMA ↗ · 2026-07-05

对13个本地LLM在65K-128K上下文下的广泛基准测试表明，预填充速度主导了代理工作负载性能（占实际时间的94-99%），使tg128指标具有误导性，并且KV头数量是比参数量或MoE/密集设计更关键的架构因素。

0 人收藏 0 人点赞

#agentic-workloads

Reddit r/singularity ↗ · 2026-06-24 缓存

DualPath是一种通过引入双路径KV-cache加载机制来打破智能体LLM推理中存储带宽瓶颈的系统，离线吞吐量提升可达1.87倍，在线吞吐量提升可达1.96倍。

0 人收藏 0 人点赞

#agentic-workloads

X AI KOLs Following ↗ · 2026-06-02 缓存

vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用，支持跨节点前缀缓存，高效服务具有高令牌重用的代理工作负载。

0 人收藏 0 人点赞

#agentic-workloads

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Qwen推理团队宣布了TokenSpeed，这是一个针对智能体工作负载的高性能LLM推理引擎，实现了540 TPS，并提供开源预览版。

0 人收藏 0 人点赞

#agentic-workloads

TLDR AI ↗ · 2026-05-07 缓存

Lightseek发布TokenSpeed，一款面向智能体工作负载优化的高性能LLM推理引擎，采用编译器驱动的并行技术和先进的内核优化，相关技术已被vLLM采纳。

0 人收藏 0 人点赞