BitTide
首页
Trending
论文
模型
工具
新闻
产品
事件
时间轴
搜索
订阅
English
登录
attention-optimization
标签
Cards
List
#attention-optimization
TTKV:面向长上下文LLM推理的时间分层KV缓存
arXiv cs.CL
↗
· 2026-04-23
缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交