@Pavel_Izmailov: 新论文:潜在上下文语言模型(LCLMs)!思想:将16个token编码为1个潜在token,让LLM处理t…
摘要
介绍潜在上下文语言模型(LCLMs),该模型将16个token编码为1个潜在token,以提高性能、速度和内存使用。
新论文:潜在上下文语言模型(LCLMs)!
思想:将16个token编码为1个潜在token,并让LLM在潜在token之上工作。结果:通用模型,在性能/速度/内存使用方面实现了更好的权衡。https://t.co/ldsBOVkmFF
查看缓存全文
缓存时间: 2026/06/10 21:57
新论文:潜在上下文语言模型(LCLMs)!
核心思想:将16个token编码为1个潜在token,LLM在潜在token之上工作。结果:通用模型在性能、速度、内存使用方面均实现更优的平衡。https://t.co/ldsBOVkmFF
相似文章
大规模端到端上下文压缩
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
@samhogan:顺便提一句,RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中,它就能直接跑通……
一位开发者分享了使用 RLM 的实践经验,表示其能够有效承载高达数千万 token 的超长上下文窗口,这标志着上下文处理能力实现了显著跨越。
@JulieKallini: Fast Byte Latent Transformer 被 ICML 2026 接收!字节级语言模型有望摆脱子词分词器,但解码……
快速字节潜在变换器(BLT-D)已被 ICML 2026 接收,它引入了一种文本扩散方法,用于并行字节级解码,以克服传统字节级语言模型的速度限制。
修正影响:利用正交潜在空间解构LLM输出
本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。
更少的上下文,更高的准确性:一种用于LLM代理的双时态记忆引擎,其中精简检索的上下文胜过了完整历史
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。