agentic-workloads

标签

Cards List
#agentic-workloads

@m_sirovatka: KV Cache 重用是代理工作负载推广中最重要的部分。我们已经将 Mooncake Store 集成到 prime-rl 中,与 vL…

X AI KOLs Following · 4天前 缓存

vLLM 集成了 Mooncake Store 用于分布式 KV 缓存重用,支持跨节点前缀缓存,高效服务具有高令牌重用的代理工作负载。

0 人收藏 0 人点赞
#agentic-workloads

@zhyncs42: Qwen推理团队非常棒——他们在TokenSpeed上针对智能体工作负载实现了540 TPS,期待他们...

X AI KOLs Timeline · 2026-05-24 缓存

Qwen推理团队宣布了TokenSpeed,这是一个针对智能体工作负载的高性能LLM推理引擎,实现了540 TPS,并提供开源预览版。

0 人收藏 0 人点赞
#agentic-workloads

TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)

TLDR AI · 2026-05-07 缓存

Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈