每个多模态证据一个Token:面向资源受限问答的Latent Memory

Hugging Face Daily Papers 论文

摘要

潜在记忆(Latent Memory)引入了一种用于问答中外部记忆的压缩表示方法,在减少Token消耗和存储需求的同时,在纯文本和多模态基准测试中保持有竞争力的表现。

外部记忆能够有效地将基于大语言模型(LLM)和视觉语言模型(VLM)的问答(QA)锚定在相关的多模态证据上。然而,现有的记忆范式以原始文本和图像形式表示每个记忆项,因此基于检索的系统必须将检索到的文本或图像传递给生成型LLM/VLM,导致Token消耗高和存储压力大,使其在资源受限的应用中难以承受。我们提出了一种潜在空间记忆范式——潜在记忆(Latent Memory),它将每个原始文本或图像证据项替换为由一个小型压缩器LLM/VLM生成的单个高维潜在Token。不同于为生成而检索原始证据,潜在记忆在一个统一的潜在表示空间中运行:查询被嵌入到该空间中以检索相关的潜在Token,然后直接将检索到的潜在Token输入预训练的LLM或VLM以生成答案。为了使每个潜在Token同时对重建、检索和生成具有信息量,我们以统一的端到端方式,使用重建、对比和蒸馏目标训练压缩器。潜在内存在七个纯文本问答基准(如HotpotQA)和多模态问答基准上进行了评估,与先进的RAG基线相比,它实现了有竞争力的问答性能,同时消耗的生成器Token减少了3倍到10倍。它还能在WebQA上提供最强的基于图像的问答性能。代码可在 https://github.com/zz1358m/Latent-Memory-Master 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - 每个多模态证据一个令牌:面向资源受限问答的潜在记忆

来源:https://huggingface.co/papers/2606.10572

摘要

潜在记忆(Latent Memory)引入了一种用于问答外部记忆的压缩表示方法,在减少令牌消耗和存储需求的同时,在纯文本和多模态基准测试中保持了具有竞争力的性能。

外部记忆(https://huggingface.co/papers?q=External%20memory)能有效将基于大语言模型(https://huggingface.co/papers?q=large%20language%20models)(LLMs)和视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLMs)的问答(https://huggingface.co/papers?q=question%20answering)(QA)系统与相关多模态证据联系起来。然而,现有的记忆范式以原始文本和图像形式表示每条记忆项,因此基于检索的系统必须将检索到的文本或图像传递给生成式LLM/VLM,导致令牌消耗高、存储压力大,对于资源受限的应用程序来说难以承受。我们提出潜在记忆(Latent Memory),这是一种潜在空间记忆(https://huggingface.co/papers?q=latent-space%20memory)范式,它用单个由小型压缩器LLM(https://huggingface.co/papers?q=compressor%20LLM)/VLM生成的高维潜在令牌替换每条原始文本或图像证据。潜在记忆并非检索原始证据用于生成,而是在统一的潜在表示空间中操作:查询被嵌入到该空间中以检索相关的潜在令牌(https://huggingface.co/papers?q=latent%20tokens),检索到的潜在令牌(https://huggingface.co/papers?q=latent%20tokens)直接被提示给预训练LLM(https://huggingface.co/papers?q=pretrained%20LLM)或VLM进行答案生成。为了使每个潜在令牌同时具有重建、检索和生成的信息,我们使用重建、对比和蒸馏目标(https://huggingface.co/papers?q=distillation%20objective)以统一的端到端方式训练压缩器。潜在内存在七个纯文本问答基准(如HotpotQA)和多模态问答基准上进行了评估,与先进RAG基线相比,在生成令牌消耗减少3到10倍的情况下取得了具有竞争力的QA性能。它还在WebQA上实现了最强的图像定位问答性能。代码可在 https://github.com/zz1358m/Latent-Memory-Master 获取。

查看arXiv页面(https://arxiv.org/abs/2606.10572)查看PDF(https://arxiv.org/pdf/2606.10572)项目页面(https://huggingface.co/zz1358m/Latent-Memory-Master)GitHub2(https://github.com/zz1358m/Latent-Memory-Master)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10572)

在你的代理中获取这篇论文:

hf papers read 2606\.10572

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。

引用此论文的Spaces0

无Space链接此论文

在Space README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

ElasticMem:作为LLM智能体可学习资源的潜在记忆

arXiv cs.CL

ElasticMem 为 LLM 智能体引入了一种可学习的潜在记忆机制,该机制能够自适应地为检索到的记忆分配可变预算,从而在减少 token 成本的同时,提升内存密集型问答和具身智能体任务的性能。

基于门控关联检索的通用三重潜在压缩

arXiv cs.CL

本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。

从KV缓存压缩的角度重新思考LoRA内存

arXiv cs.CL

本文研究了文档级问答中参数侧内存(LoRA适配器)与上下文侧内存(KV缓存)之间的交互。研究发现,当KV缓存被大幅压缩时,文档LoRA变得最有价值,可恢复13–21个ROUGE-L点,并且经过问答监督的适配器优于基于下一词预测的适配器。