attention-optimization

标签

Cards List
#attention-optimization

TTKV:面向长上下文LLM推理的时间分层KV缓存

arXiv cs.CL · 2026-04-23 缓存

TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈