ProMSA:用于基于知识的视觉问答的渐进式多模态搜索智能体

Hugging Face Daily Papers 论文

摘要

提出ProMSA,一种用于基于知识的视觉问答的渐进式多模态搜索智能体,它能自适应选择搜索策略并通过序列级强化学习进行优化,在E-VQA和InfoSeek上取得了一致的性能提升。

基于知识的视觉问答(KB-VQA)要求模型将图像理解与外部知识相结合。大多数现有方法采用固定的检索-生成流水线,使用预先选定的检索器和静态的top-k设置,在推理过程中缺乏自适应性。我们提出ProMSA,一种用于KB-VQA的渐进式多模态搜索智能体。给定一个图像-问题对,智能体在显式的工具调用预算下迭代地选择图像搜索、文本搜索或停止,并通过去重避免冗余检索。在训练方面,我们首先使用拒绝采样SFT学习有效的工具使用格式,然后使用TN-GSPO(一种序列级强化学习目标,通过生成长度和工具交互深度规范化更新)对智能体进行优化。在E-VQA和InfoSeek上的实验表明,相较于强RAG和智能体基线,该方法取得了一致性提升,并提高了检索和端到端准确性。代码可在 https://github.com/DingWu1021/Promsa 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/29 06:01

论文页面 - ProMSA: 面向基于知识的视觉问答的渐进式多模态搜索智能体

来源: https://huggingface.co/papers/2606.27974 作者:

,

,

,

,

,

,

,

,

,

摘要

一种用于基于知识的视觉问答的渐进式多模态搜索智能体,能够自适应地选择搜索策略并通过序列级强化学习进行优化。

基于知识的视觉问答(Knowledge-based Visual Question Answering,KB-VQA)要求模型将图像理解与外部知识相结合。以往大部分方法采用固定的“检索-生成”流水线(retrieve-then-generate pipeline),使用预选的检索器和静态的 top-k 设置,在推理过程中不具有自适应性。我们提出 ProMSA,一种用于 KB-VQA 的渐进式多模态搜索智能体(progressive multimodal search agent)。给定图像-问题对,智能体在显式工具调用预算(tool-call budgets)下,通过去重(deduplication)避免冗余检索,迭代地选择图像搜索、文本搜索或停止。在训练方面,我们首先使用拒绝采样 SFT(rejection-sampling SFT)来学习有效的工具使用格式,然后使用 TN-GSPO(一种序列级 RL 目标函数,sequence-level RL objective)优化智能体,该目标函数通过生成长度(generation length)和工具交互深度(tool-interaction depth)对更新进行归一化。在 E-VQA 和 InfoSeek 上的实验显示,该方法相比强 RAG 和智能体基线取得了一致性提升,并在检索和端到端准确率上有所改进。代码开源在 https://github.com/DingWu1021/Promsa。

查看 arXiv 页面 (https://arxiv.org/abs/2606.27974) 查看 PDF (https://arxiv.org/pdf/2606.27974) 项目页面 (https://dingwu1021.github.io/ProMSA/) GitHub3 (https://github.com/DingWu1021/Promsa) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27974)

在您的智能体中获取此论文:

hf papers read 2606\.27974

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.27974 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.27974 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.27974 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

MMSkills:面向通用视觉智能体的多模态技能

arXiv cs.AI

本文介绍了MMSkills,这是一个用于表示、生成和使用视觉智能体多模态程序性知识的框架,结合了文本程序与视觉状态卡和关键帧,并在GUI和游戏类视觉智能体基准测试中展示了改进效果。

自我演进的视觉提问器

Hugging Face Daily Papers

本文介绍了一种面向视觉语言模型的自我演进框架,使其在没有外部监督的情况下提升提问能力,不仅提高了问题质量,还增强了回答者的表现。

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

Hugging Face Daily Papers

SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。