多模态长对话中的细粒度片段检索

arXiv cs.CL 2026/06/04 04:00 论文

摘要

本文提出了细粒度片段检索（FFR）这一新任务，旨在长对话中定位语义连贯的多模态片段（文本与图像）。作者提出了基于生成的检索模型 F2RVLM（通过强化学习训练）和两阶段检索系统 FFRS，并构建了新的评测数据集 MLDR。

arXiv:2606.04591v1 公告类型：新论文摘要：随着多模态通信平台的广泛普及，文本与图像交织的长对话愈发常见。用户往往需要检索与特定话题相关的连贯对话片段，而非孤立的单条发言。我们提出细粒度片段检索（FFR），用于在多模态长对话中定位语义相关的多语句、多图像片段。我们探索了两种设定：（1）单对话内 FFR，即从给定对话中检索片段；（2）对话语料库内 FFR，即在大规模语料库中检索，面向开放域场景。针对设定（1），我们提出 F2RVLM，这是一个基于生成的检索模型，通过强化学习进行训练，采用多目标奖励和难度感知课程采样来提升片段的连贯性。针对设定（2），我们构建了 FFRS，这是一个结合离线片段级索引与在线检索的两阶段系统。具体而言，每段对话被分解为最小语义片段，由片段嵌入模型（FEM）编码后存入向量数据库；在推理阶段，FEM 快速召回 Top-K 候选片段，再由 F2RVLM 进行细粒度推理以识别最相关的子内容。为支持 FFR 研究，我们构建了迄今为止最长的多模态对话检索数据集 MLDR，以及基于微信的真实场景测试集。在两个基准上的实验均表明，F2RVLM 和 FFRS 在单对话和语料库级 FFR 任务中均取得了优异的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:15

# 多模态长篇对话中的细粒度片段检索

来源：https://arxiv.org/html/2606.04591

11机构信息：袁志强（[email protected]）1. 腾讯公司微信AI模式识别中心，中国 2. 中国科学院空天信息创新研究院 ⋆这些作者贡献相同。§技术负责人。†通讯作者。袁志强1⋆§ 李崇洋1,2 严启威1,2 贾泽希1 张佳沛1 段晓玥1 冯颖超2 张金超1† 周杰1

（收稿日期：/ 接受日期：）

###### 摘要

随着多模态通信平台的广泛普及，文本与图像交织的长篇对话日益普遍。在客户支持、知识管理和协作工具等实际应用场景中，用户往往希望重新找到与特定主题或事件相关的连贯对话片段，而非孤立的单条话语或图片。为满足这一需求，我们提出了**细粒度片段检索（FFR）**任务，要求模型在多模态长篇对话中定位由多条话语和图像组成的语义相关片段。我们探索了两种核心FFR设置：（1）**单对话内FFR**，模型从给定的长篇对话中检索片段；（2）**对话语料库内FFR**，涉及从大规模对话语料库中检索相关片段，反映实际开放域检索场景。为支持前者，我们引入了**F2RVLM**，一种基于生成的检索模型，通过强化学习进行训练，融入多目标奖励和难度感知课程采样，以提升所检索片段的一致性与连贯性。针对后者，我们开发了**FFRS**，一个两阶段检索系统，将离线片段级索引与在线检索相结合，实现大规模场景下的高效、精准检索。具体而言，每篇长对话被分解为最小语义单元（即片段），由**片段嵌入模型（FEM）**将其编码并存入向量数据库。推理阶段，FEM根据用户查询快速召回Top-K候选片段，再由F2RVLM对每个候选片段进行细粒度推理，以识别其中最相关的子内容。为支持和评估FFR，我们构建了**MLDR**——迄今为止轮次最长的多模态对话检索数据集，并基于微信对话构建了真实世界测试集。在两个基准上的大量实验表明，所提出的F2RVLM和FFRS在单对话和语料库级FFR设置中均持续取得优越性能。代码和数据集已公开发布于 FFRS.github.io（https://github.com/HanboBizl/FFRS.github.io）。

###### 关键词：检索 多模态对话 视觉语言模型

## 1 引言

![图1](图片占位符)
**图1：多模态对话检索范式对比。**（a）**响应选择**：从预定义候选池中选择最合适的话语或图像作为对给定对话历史的响应。（b）**单项检索**：直接从原始多模态对话上下文中检索一条话语或一张图像。我们引入**细粒度片段检索（FFR）**任务，旨在检索包含话语和图像的语义连贯多轮片段，更好地反映长篇多模态对话中的真实信息需求。（c）**单对话内FFR**：给定用户查询和一段多模态对话，从同一对话中检索由多条交织话语和图像组成的单个语义相关片段。（d）**对话语料库内FFR**：给定用户查询和大规模对话语料库，从不同对话中检索多个相关片段，实现跨对话的全局级检索，覆盖更广泛的内容。

随着智能客服系统（Nie等，2021；Wu等，2024b）、社交即时通讯应用（Tomar和Kakkar，2014；Walnycky等，2015）以及企业级助手（Bischoff和Graefe，2002）等多模态通信平台的广泛普及，大量文本与图像交织的对话数据正在迅速积累。从如此大规模的多模态语料库中高效检索语义相关信息，已成为实现知识发现、优化用户体验和推动智能人机交互（Lin等，2025）的核心能力。与传统纯文本对话相比，多模态长篇对话往往跨越数十乃至数百轮，呈现出强烈的时序依赖、复杂的跨模态语义交互以及错综复杂的上下文关系（Chen等，2024a；Yang等，2025b）。这些特点使得从中检索有用信息远比从短文本或结构化输入（如文档）中检索困难得多。

当前多模态对话检索范式通常分为两类：（a）从预定义候选集中选取最相关的单条话语或图像作为对话响应（见图1.a）（Yin等，2024；Bai等，2025b）；（b）直接从原始对话上下文中检索单条话语或图像（见图1.b）（Zang等，2021）。尽管这些方法在响应预测和短上下文场景中有效，但在实际应用中仍显不足。实践中，用户很少只想检索孤立的信息片段；相反，他们往往希望获取跨越多个对话轮次和模态的连贯语义片段，这些片段通常与特定主题或事件相关，例如"上周关于产品发布计划的对话"或"涉及某张设计图的部分"。这些细粒度的信息需求揭示了现有检索范式与用户在浏览复杂长篇多模态对话时的真实期望之间的关键差距。

为弥合这一差距，我们引入了**细粒度片段检索（FFR）**任务，如图1.c-d所示。与专注于检索单条话语或孤立图像的现有范式不同，FFR旨在根据用户查询定位语义相关且上下文完整的片段，这些片段通常由交织的文本和图像轮次构成。通过实现FFR，我们致力于将长篇对话内容转化为与人类理解更为契合的语义单元，从而显著提升从大规模多模态语料库中检索有价值信息的效率和准确性。

作为FFR研究的基础，我们构建了MLDR——一个大规模多模态长篇对话检索数据集，每段对话涵盖三个不同主题，平均25.45轮，是迄今为止轮次最长的多模态数据集。为进一步评估模型在真实场景中的泛化能力，我们整理了一个基于微信的测试集，该测试集由真实对话组成，平均75.38轮。这些数据集共同支持片段检索的受控基准测试和开放域评估。

基于上述资源，我们系统地探索了两种典型设置下的FFR：**单对话内FFR**评估单次对话内的细粒度片段检索，**对话语料库内FFR**则反映跨多个对话的大规模检索。这种双设置设计不仅支持对局部和全局检索性能的全面评估，同时展示出强大的实际部署潜力。

**（1）单对话内FFR。** 为开发能够高效执行多模态长篇对话FFR的检索模型，我们首先探索单对话内的片段检索，模型需根据用户查询定位最相关的片段。为此，我们使用所构建的数据集评估了代表性视觉语言模型（VLM），包括嵌入模型（Radford等，2021；Li等，2023）和多模态大语言模型（MLLM）（Jaech等，2024；Comanici等，2025）。结果表明，嵌入模型虽然推理速度更快，但语义精度不足。令人惊讶的是，即使是领先的MLLM，如Qwen2.5-VL-72B（Wang等，2024b）和Doubao-Seed-1.6（Guo等，2025a），也经常检索出不连贯的话语-图像对，例如不匹配的轮次或无关的视觉内容，导致在真实场景中F1分数欠佳。这一局限主要源于模型学习目标与片段检索需求之间的差距：这些模型针对从视觉文本输入生成响应进行了优化，缺乏明确的监督来确保所检索或生成的片段在语义上连贯、与用户查询上下文对齐。

为此，我们引入了**F2RVLM**，一种专为FFR设计的基于MLLM的检索模型。F2RVLM遵循两阶段训练范式：通过监督微调注入片段级检索知识，随后通过基于GRPO的强化学习将检索行为与人类偏好对齐。我们设计了多目标奖励方案，以鼓励生成具有语义精度和上下文连贯性的片段：（i）基于F1的对齐奖励促进与真实片段的精确匹配，对过度检索和检索不足进行惩罚；（ii）片段顺序一致性增强所选话语和图像之间的语义对齐，引导模型以连贯、符合人类偏好的方式组织内容。此外，我们引入了难度感知课程采样策略，基于检索F1和预测熵将训练样本从易到难排序，实现对复杂多轮对话中推理能力的渐进式学习。在域内MLDR和真实域微信测试集上的大量实验表明，F2RVLM在检索精度和上下文理解方面显著优于主流VLM。

**（2）对话语料库内FFR。** 尽管F2RVLM在单对话设置中表现出色，但实际应用通常需要在数千段对话中进行查询匹配。为解决这一问题，我们进一步开发了**FFRS**——一个两阶段**细粒度片段检索系统**，通过"离线结构化索引与在线双阶段检索"范式在语义精度和检索效率之间取得平衡，如图1.d所示。

1. **1. 离线索引。** 我们首先将每段对话分解为最小语义单元，即片段。每个片段随后被编码并存储在向量数据库中，形成离线构建的索引，支持快速基于相似度的检索，无需在推理时重新解析整个对话语料库。为确保高质量的嵌入，我们引入了采用双层次对比学习策略训练的片段嵌入模型（FEM）：（i）在片段间层次，FEM捕获跨对话的全局语义一致性；（ii）在片段内层次，通过在每个片段内构建多个问答（QA）风格子任务来建模细粒度语用依赖关系。这一设计使FEM能够保持片段嵌入的语义完整性，从而支持准确的上下文感知检索。

2. **2. 在线检索。** 响应用户查询时，系统首先进行快速基于嵌入的检索，从离线构建的索引中粗略召回Top-K候选片段。这些候选片段随后由F2RVLM进一步精炼，进行更精确的推理以定位更符合查询语义的子内容。通过将嵌入驱动的粗召回与生成驱动的细粒度推理相结合，FFRS在检索效率和语义精度之间取得了良好的权衡。它为跨单个对话和大规模语料库的细粒度检索提供了强健且适应性强的框架，为面向检索的多模态对话系统的实际部署铺平了道路。

在真实世界微信语料库上的实验进一步证明，我们的系统实现了高效、精准的片段检索，突出了其在真实对话场景下的有效性。

我们的主要贡献总结如下：

- **新颖检索任务。** 我们引入细粒度片段检索（FFR），这是一种新颖的检索任务，旨在直接从长篇对话中定位语义连贯的话语-图像片段，有别于传统对话检索中选择最合适单个元素的做法。

- **FFR数据集构建。** 我们构建了MLDR——迄今为止轮次最长的多模态对话检索数据集，每段对话平均25.45轮，每段对话涵盖三个不同主题。此外，我们整理了一个真实世界微信测试集，每段对话平均75.38轮，用于评估实际场景中的检索泛化能力。

- **单对话内FFR。** 我们提出F2RVLM，一种专为单对话FFR设计的基于强化学习的检索模型。它融入多目标奖励和难度感知课程采样，渐进式增强所检索片段的语义一致性与连贯性。在MLDR和微信测试集上的实验表明，F2RVLM在检索精度方面持续优于主流VLM。

- **对话语料库内FFR。** 为将FFR扩展至大规模对话语料库，我们开发了FFRS，一个将基于嵌入的粗召回与细粒度推理相结合的两阶段系统。在真实世界微信对话上的评估验证了其在真实场景中快速且语义对齐的片段检索能力。

与我们发表于AAAI的原始会议论文（Bi等，2025）相比，该会议论文引入了用于单对话片段检索的F2RVLM模型，本扩展工作提出了四项重大改进：（i）我们将任务范围从单对话扩展至**语料库级片段检索**，使模型能够在多段对话中识别语义一致的片段，这是迈向可扩展实际应用的关键一步；（ii）我们开发了FFRS，一个遵循"离线索引+在线检索"范式的**两阶段检索系统**，将基于嵌入的粗召回与细粒度推理相结合，从而克服了依赖穷举逐对话推理的先前生成式方法的低效问题；（iii）为支持FFRS，我们引入了**片段嵌入模型**……

多模态长对话中的细粒度片段检索

相似文章

LFRAG：面向布局的多模态文档理解细粒度检索增强生成

微宏观检索：减少大型语言模型的长文本幻觉

结构促进检索、重排序与生成

Q-RAG：通过基于价值的 Embedder 训练实现长上下文多步检索

AFMRL：电商中属性增强的细粒度多模态表征学习

提交意见反馈