sleep-analogy

标签

Cards List
#sleep-analogy

语言模型需要睡眠

Hacker News Top · 2026-05-26 缓存

本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈