TVIR:构建面向文本-视觉交织报告生成的深度研究代理

Hugging Face Daily Papers 论文

摘要

介绍了TVIR,一个用于生成文本-视觉交织报告的基准和层次化多代理框架,评估了自动化报告生成中的事实可靠性和视觉对齐。

深度研究代理在多步信息检索、推理和长篇报告生成方面展示了强大的能力,但现有的基准和系统仍然主要以文本为中心,对视觉元素是否在事实上可靠且与周围分析良好对齐的评估有限。为了弥补这一差距,我们提出了TVIR(文本-视觉交织报告生成),其中包括TVIR-Bench,一个包含100个专家策划的多模态深度研究任务的基准,这些任务要求视觉元素服务于特定的分析子目标,以及TVIR-Agent,一个层次化多代理框架,作为构建大纲、检索图像、生成带有可追溯来源的图表以及通过上下文感知的顺序写作来撰写报告的强基线。我们进一步开发了一个结合文本评估和视觉评估的双路径评估框架。在九个深度研究系统上的实验表明,TVIR-Agent实现了强大的整体性能,强调了明确的跨模态设计和评估对于基于证据的报告生成的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/02 19:33

论文页面 - TVIR:面向文本-视觉交错报告生成的深度研究智能体

来源:https://huggingface.co/papers/2606.02320 作者:

摘要

我们引入了一个多模态深度研究基准和智能体框架,用于评估和改进自动报告生成系统的事实可靠性与视觉对齐性。

深度研究智能体在多步骤信息检索、推理和长篇报告生成方面已展现出强大能力,但现有基准和系统仍以文本为中心,对视觉元素是否事实可靠且与周围分析良好对齐的评估十分有限。为填补这一空白,我们提出了 TVIR(文本-视觉交错报告生成),它包括 TVIR-Bench——一个由 100 个专家策划的多模态深度研究任务组成的基准,这些任务要求视觉元素服务于特定的分析子目标;以及 TVIR-Agent——一个分层多智能体框架,作为构建大纲、检索图像、生成可追溯来源的图表以及通过上下文感知的顺序写作来撰写报告的强基线。我们进一步开发了一个双路径评估框架,结合了文本评估和视觉评估。在九个深度研究系统上的实验表明,TVIR-Agent 取得了强整体性能,凸显了显式多模态设计与评估对于证据驱动的报告生成的重要性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02320) 查看 PDF (https://arxiv.org/pdf/2606.02320) 项目页面 (https://nju-link.github.io/TVIR/) GitHub3 (https://github.com/NJU-LINK/TVIR) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02320)

在您的智能体中获取此论文:

hf papers read 2606\.02320

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02320 以从本页链接。

引用此论文的数据集1

NJU-LINK/TVIR-Bench 查看器• 更新于约5小时前 • 100 (https://huggingface.co/datasets/NJU-LINK/TVIR-Bench)

引用此论文的 Space0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.02320 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从本页链接。

相似文章

VESTA:基于统计工具代理的视觉探索

arXiv cs.AI

本文介绍了VESTA,一个为视觉-语言模型配备动态增长工具包的框架,用于数据探索和统计模型优化,在复杂的科学建模任务上优于先前的基于代理的方法。作者还提出了Dawn基准,用于分布拟合和时间序列建模,涵盖真实的天文学挑战。

ReVision:通过时间视觉冗余缩减扩展计算机使用智能体

arXiv cs.CL

本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。

UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理

Papers with Code Trending

UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。

AtlasVA:面向无教师VLM Agent的自进化视觉技能记忆

Hugging Face Daily Papers

AtlasVA是一个面向视觉语言模型Agent的无教师视觉技能记忆框架,它利用空间热图、视觉示例和符号文本技能来改善长时域任务中的空间决策,在多个基准测试中优于基线方法。