attention-optimization

标签

#attention-optimization

TTKV：面向长上下文LLM推理的时间分层KV缓存

arXiv cs.CL ↗ · 2026-04-23 缓存

TTKV借鉴人类记忆机制，提出时间分层KV缓存，在128K上下文LLM推理中降低76%延迟、吞吐量翻倍，跨层流量减少5.94倍。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈