标签
介绍潜在上下文语言模型(LCLMs),该模型将16个token编码为1个潜在token,以提高性能、速度和内存使用。
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。