每个多模态证据一个Token:面向资源受限问答的Latent Memory
摘要
潜在记忆(Latent Memory)引入了一种用于问答中外部记忆的压缩表示方法,在减少Token消耗和存储需求的同时,在纯文本和多模态基准测试中保持有竞争力的表现。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - 每个多模态证据一个令牌:面向资源受限问答的潜在记忆
来源:https://huggingface.co/papers/2606.10572
摘要
潜在记忆(Latent Memory)引入了一种用于问答外部记忆的压缩表示方法,在减少令牌消耗和存储需求的同时,在纯文本和多模态基准测试中保持了具有竞争力的性能。
外部记忆(https://huggingface.co/papers?q=External%20memory)能有效将基于大语言模型(https://huggingface.co/papers?q=large%20language%20models)(LLMs)和视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLMs)的问答(https://huggingface.co/papers?q=question%20answering)(QA)系统与相关多模态证据联系起来。然而,现有的记忆范式以原始文本和图像形式表示每条记忆项,因此基于检索的系统必须将检索到的文本或图像传递给生成式LLM/VLM,导致令牌消耗高、存储压力大,对于资源受限的应用程序来说难以承受。我们提出潜在记忆(Latent Memory),这是一种潜在空间记忆(https://huggingface.co/papers?q=latent-space%20memory)范式,它用单个由小型压缩器LLM(https://huggingface.co/papers?q=compressor%20LLM)/VLM生成的高维潜在令牌替换每条原始文本或图像证据。潜在记忆并非检索原始证据用于生成,而是在统一的潜在表示空间中操作:查询被嵌入到该空间中以检索相关的潜在令牌(https://huggingface.co/papers?q=latent%20tokens),检索到的潜在令牌(https://huggingface.co/papers?q=latent%20tokens)直接被提示给预训练LLM(https://huggingface.co/papers?q=pretrained%20LLM)或VLM进行答案生成。为了使每个潜在令牌同时具有重建、检索和生成的信息,我们使用重建、对比和蒸馏目标(https://huggingface.co/papers?q=distillation%20objective)以统一的端到端方式训练压缩器。潜在内存在七个纯文本问答基准(如HotpotQA)和多模态问答基准上进行了评估,与先进RAG基线相比,在生成令牌消耗减少3到10倍的情况下取得了具有竞争力的QA性能。它还在WebQA上实现了最强的图像定位问答性能。代码可在 https://github.com/zz1358m/Latent-Memory-Master 获取。
查看arXiv页面(https://arxiv.org/abs/2606.10572)查看PDF(https://arxiv.org/pdf/2606.10572)项目页面(https://huggingface.co/zz1358m/Latent-Memory-Master)GitHub2(https://github.com/zz1358m/Latent-Memory-Master)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10572)
在你的代理中获取这篇论文:
hf papers read 2606\.10572
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。
引用此论文的Spaces0
无Space链接此论文
在Space README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
ElasticMem:作为LLM智能体可学习资源的潜在记忆
ElasticMem 为 LLM 智能体引入了一种可学习的潜在记忆机制,该机制能够自适应地为检索到的记忆分配可变预算,从而在减少 token 成本的同时,提升内存密集型问答和具身智能体任务的性能。
DeferMem:基于强化学习的查询时证据蒸馏在长期记忆问答中的应用
DeferMem 提出了一种面向 LLM 智能体的长期记忆框架,将记忆解耦为高召回率候选检索和基于强化学习的查询条件证据蒸馏,实现了领先的问答准确率和更快的运行时间。
基于门控关联检索的通用三重潜在压缩
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
S3Mem:面向长周期交互式问答的结构化时空场景事件记忆
S3Mem 提出了一种用于长周期交互式问答的结构化时空场景事件记忆框架,采用锚点敏感检索和令牌预算感知的证据接口,在多个环境中优于标准 RAG。
从KV缓存压缩的角度重新思考LoRA内存
本文研究了文档级问答中参数侧内存(LoRA适配器)与上下文侧内存(KV缓存)之间的交互。研究发现,当KV缓存被大幅压缩时,文档LoRA变得最有价值,可恢复13–21个ROUGE-L点,并且经过问答监督的适配器优于基于下一词预测的适配器。