post-transformer-models

标签

Cards List
#post-transformer-models

有趣的 BDH 之问:如果 LLM 的记忆驻留在网络权重中,而非不断膨胀的 KV cache 里,会怎样?

Reddit r/singularity · 2026-05-11

本文分析了 Jan Chorowski 提出的 BDH 架构方案,该方案探讨了一种替代传统 KV cache 的思路:利用稀疏高维 key-query 空间,将 LLM 的记忆直接嵌入到网络权重中。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈