每个多模态证据一个Token：面向资源受限问答的Latent Memory

Hugging Face Daily Papers 2026/06/09 08:36 论文

摘要

潜在记忆（Latent Memory）引入了一种用于问答中外部记忆的压缩表示方法，在减少Token消耗和存储需求的同时，在纯文本和多模态基准测试中保持有竞争力的表现。

外部记忆能够有效地将基于大语言模型（LLM）和视觉语言模型（VLM）的问答（QA）锚定在相关的多模态证据上。然而，现有的记忆范式以原始文本和图像形式表示每个记忆项，因此基于检索的系统必须将检索到的文本或图像传递给生成型LLM/VLM，导致Token消耗高和存储压力大，使其在资源受限的应用中难以承受。我们提出了一种潜在空间记忆范式——潜在记忆（Latent Memory），它将每个原始文本或图像证据项替换为由一个小型压缩器LLM/VLM生成的单个高维潜在Token。不同于为生成而检索原始证据，潜在记忆在一个统一的潜在表示空间中运行：查询被嵌入到该空间中以检索相关的潜在Token，然后直接将检索到的潜在Token输入预训练的LLM或VLM以生成答案。为了使每个潜在Token同时对重建、检索和生成具有信息量，我们以统一的端到端方式，使用重建、对比和蒸馏目标训练压缩器。潜在内存在七个纯文本问答基准（如HotpotQA）和多模态问答基准上进行了评估，与先进的RAG基线相比，它实现了有竞争力的问答性能，同时消耗的生成器Token减少了3倍到10倍。它还能在WebQA上提供最强的基于图像的问答性能。代码可在 https://github.com/zz1358m/Latent-Memory-Master 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - 每个多模态证据一个令牌：面向资源受限问答的潜在记忆

来源：https://huggingface.co/papers/2606.10572

摘要

潜在记忆（Latent Memory）引入了一种用于问答外部记忆的压缩表示方法，在减少令牌消耗和存储需求的同时，在纯文本和多模态基准测试中保持了具有竞争力的性能。

外部记忆（https://huggingface.co/papers?q=External%20memory）能有效将基于大语言模型（https://huggingface.co/papers?q=large%20language%20models）（LLMs）和视觉语言模型（https://huggingface.co/papers?q=vision-language%20models）（VLMs）的问答（https://huggingface.co/papers?q=question%20answering）（QA）系统与相关多模态证据联系起来。然而，现有的记忆范式以原始文本和图像形式表示每条记忆项，因此基于检索的系统必须将检索到的文本或图像传递给生成式LLM/VLM，导致令牌消耗高、存储压力大，对于资源受限的应用程序来说难以承受。我们提出潜在记忆（Latent Memory），这是一种潜在空间记忆（https://huggingface.co/papers?q=latent-space%20memory）范式，它用单个由小型压缩器LLM（https://huggingface.co/papers?q=compressor%20LLM）/VLM生成的高维潜在令牌替换每条原始文本或图像证据。潜在记忆并非检索原始证据用于生成，而是在统一的潜在表示空间中操作：查询被嵌入到该空间中以检索相关的潜在令牌（https://huggingface.co/papers?q=latent%20tokens），检索到的潜在令牌（https://huggingface.co/papers?q=latent%20tokens）直接被提示给预训练LLM（https://huggingface.co/papers?q=pretrained%20LLM）或VLM进行答案生成。为了使每个潜在令牌同时具有重建、检索和生成的信息，我们使用重建、对比和蒸馏目标（https://huggingface.co/papers?q=distillation%20objective）以统一的端到端方式训练压缩器。潜在内存在七个纯文本问答基准（如HotpotQA）和多模态问答基准上进行了评估，与先进RAG基线相比，在生成令牌消耗减少3到10倍的情况下取得了具有竞争力的QA性能。它还在WebQA上实现了最强的图像定位问答性能。代码可在 https://github.com/zz1358m/Latent-Memory-Master 获取。

查看arXiv页面（https://arxiv.org/abs/2606.10572）查看PDF（https://arxiv.org/pdf/2606.10572）项目页面（https://huggingface.co/zz1358m/Latent-Memory-Master）GitHub2（https://github.com/zz1358m/Latent-Memory-Master）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.10572）

在你的代理中获取这篇论文：

hf papers read 2606\.10572

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。

引用此论文的Spaces0

无Space链接此论文

在Space README.md 中引用 arxiv.org/abs/2606.10572 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

每个多模态证据一个Token：面向资源受限问答的Latent Memory

论文页面 - 每个多模态证据一个令牌：面向资源受限问答的潜在记忆

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

ElasticMem：作为LLM智能体可学习资源的潜在记忆

DeferMem：基于强化学习的查询时证据蒸馏在长期记忆问答中的应用

基于门控关联检索的通用三重潜在压缩

S3Mem：面向长周期交互式问答的结构化时空场景事件记忆

从KV缓存压缩的角度重新思考LoRA内存

提交意见反馈