标签
本文分析了 Jan Chorowski 提出的 BDH 架构方案,该方案探讨了一种替代传统 KV cache 的思路:利用稀疏高维 key-query 空间,将 LLM 的记忆直接嵌入到网络权重中。