ProMSA:用于基于知识的视觉问答的渐进式多模态搜索智能体

Hugging Face Daily Papers 2026/06/26 00:00 论文

visual-question-answering multimodal search-agents reinforcement-learning knowledge-based rag tool-use

摘要

提出ProMSA，一种用于基于知识的视觉问答的渐进式多模态搜索智能体，它能自适应选择搜索策略并通过序列级强化学习进行优化，在E-VQA和InfoSeek上取得了一致的性能提升。

基于知识的视觉问答（KB-VQA）要求模型将图像理解与外部知识相结合。大多数现有方法采用固定的检索-生成流水线，使用预先选定的检索器和静态的top-k设置，在推理过程中缺乏自适应性。我们提出ProMSA，一种用于KB-VQA的渐进式多模态搜索智能体。给定一个图像-问题对，智能体在显式的工具调用预算下迭代地选择图像搜索、文本搜索或停止，并通过去重避免冗余检索。在训练方面，我们首先使用拒绝采样SFT学习有效的工具使用格式，然后使用TN-GSPO（一种序列级强化学习目标，通过生成长度和工具交互深度规范化更新）对智能体进行优化。在E-VQA和InfoSeek上的实验表明，相较于强RAG和智能体基线，该方法取得了一致性提升，并提高了检索和端到端准确性。代码可在 https://github.com/DingWu1021/Promsa 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/29 06:01

论文页面 - ProMSA: 面向基于知识的视觉问答的渐进式多模态搜索智能体

来源: https://huggingface.co/papers/2606.27974 作者:

摘要

一种用于基于知识的视觉问答的渐进式多模态搜索智能体，能够自适应地选择搜索策略并通过序列级强化学习进行优化。

基于知识的视觉问答（Knowledge-based Visual Question Answering，KB-VQA）要求模型将图像理解与外部知识相结合。以往大部分方法采用固定的“检索-生成”流水线（retrieve-then-generate pipeline），使用预选的检索器和静态的 top-k 设置，在推理过程中不具有自适应性。我们提出 ProMSA，一种用于 KB-VQA 的渐进式多模态搜索智能体（progressive multimodal search agent）。给定图像-问题对，智能体在显式工具调用预算（tool-call budgets）下，通过去重（deduplication）避免冗余检索，迭代地选择图像搜索、文本搜索或停止。在训练方面，我们首先使用拒绝采样 SFT（rejection-sampling SFT）来学习有效的工具使用格式，然后使用 TN-GSPO（一种序列级 RL 目标函数，sequence-level RL objective）优化智能体，该目标函数通过生成长度（generation length）和工具交互深度（tool-interaction depth）对更新进行归一化。在 E-VQA 和 InfoSeek 上的实验显示，该方法相比强 RAG 和智能体基线取得了一致性提升，并在检索和端到端准确率上有所改进。代码开源在 https://github.com/DingWu1021/Promsa。

查看 arXiv 页面 (https://arxiv.org/abs/2606.27974) 查看 PDF (https://arxiv.org/pdf/2606.27974) 项目页面 (https://dingwu1021.github.io/ProMSA/) GitHub3 (https://github.com/DingWu1021/Promsa) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.27974)

在您的智能体中获取此论文：

hf papers read 2606\.27974

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.27974 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.27974 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.27974 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

ProMSA:用于基于知识的视觉问答的渐进式多模态搜索智能体

论文页面 - ProMSA: 面向基于知识的视觉问答的渐进式多模态搜索智能体

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索

MMSkills：面向通用视觉智能体的多模态技能

自我演进的视觉提问器

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

通过并行搜索与显式合并扩展检索增强推理

提交意见反馈