标签
一篇比较RNNs、Transformers和SSMs中记忆设计的技术分析,主张关键问题在于序列状态应存储于何处,而非哪种架构更优。讨论了压缩隐状态、增长的KV缓存以及模型连接中类突触记忆之间的权衡。
本文介绍了多轮Text-to-SQL基准测试EnterpriseMem-Bench,并评估了五种前沿模型在不同记忆架构下的表现,发现无状态模型在第三轮时崩溃,且工作记忆带来的提升最大。