TVIR：构建面向文本-视觉交织报告生成的深度研究代理

Hugging Face Daily Papers 2026/06/01 00:00 论文

multimodal deep-research report-generation benchmark visual-alignment agent-framework

摘要

介绍了TVIR，一个用于生成文本-视觉交织报告的基准和层次化多代理框架，评估了自动化报告生成中的事实可靠性和视觉对齐。

深度研究代理在多步信息检索、推理和长篇报告生成方面展示了强大的能力，但现有的基准和系统仍然主要以文本为中心，对视觉元素是否在事实上可靠且与周围分析良好对齐的评估有限。为了弥补这一差距，我们提出了TVIR（文本-视觉交织报告生成），其中包括TVIR-Bench，一个包含100个专家策划的多模态深度研究任务的基准，这些任务要求视觉元素服务于特定的分析子目标，以及TVIR-Agent，一个层次化多代理框架，作为构建大纲、检索图像、生成带有可追溯来源的图表以及通过上下文感知的顺序写作来撰写报告的强基线。我们进一步开发了一个结合文本评估和视觉评估的双路径评估框架。在九个深度研究系统上的实验表明，TVIR-Agent实现了强大的整体性能，强调了明确的跨模态设计和评估对于基于证据的报告生成的重要性。

查看原文

查看缓存全文

缓存时间: 2026/06/02 19:33

论文页面 - TVIR：面向文本-视觉交错报告生成的深度研究智能体

来源：https://huggingface.co/papers/2606.02320 作者：

，

摘要

我们引入了一个多模态深度研究基准和智能体框架，用于评估和改进自动报告生成系统的事实可靠性与视觉对齐性。

深度研究智能体在多步骤信息检索、推理和长篇报告生成方面已展现出强大能力，但现有基准和系统仍以文本为中心，对视觉元素是否事实可靠且与周围分析良好对齐的评估十分有限。为填补这一空白，我们提出了 TVIR（文本-视觉交错报告生成），它包括 TVIR-Bench——一个由 100 个专家策划的多模态深度研究任务组成的基准，这些任务要求视觉元素服务于特定的分析子目标；以及 TVIR-Agent——一个分层多智能体框架，作为构建大纲、检索图像、生成可追溯来源的图表以及通过上下文感知的顺序写作来撰写报告的强基线。我们进一步开发了一个双路径评估框架，结合了文本评估和视觉评估。在九个深度研究系统上的实验表明，TVIR-Agent 取得了强整体性能，凸显了显式多模态设计与评估对于证据驱动的报告生成的重要性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02320) 查看 PDF (https://arxiv.org/pdf/2606.02320) 项目页面 (https://nju-link.github.io/TVIR/) GitHub3 (https://github.com/NJU-LINK/TVIR) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02320)

在您的智能体中获取此论文：

hf papers read 2606\.02320

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02320 以从本页链接。

引用此论文的数据集1

NJU-LINK/TVIR-Bench 查看器• 更新于约5小时前 • 100 (https://huggingface.co/datasets/NJU-LINK/TVIR-Bench)

引用此论文的 Space0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.02320 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从本页链接。

TVIR：构建面向文本-视觉交织报告生成的深度研究代理

论文页面 - TVIR：面向文本-视觉交错报告生成的深度研究智能体

摘要

引用此论文的模型0

引用此论文的数据集1

NJU-LINK/TVIR-Bench 查看器• 更新于约5小时前 • 100 (https://huggingface.co/datasets/NJU-LINK/TVIR-Bench)

引用此论文的 Space0

包含此论文的收藏0

相似文章

迈向可验证的多模态深度研究：一种用于交错报告生成的多智能体框架

AgentViSS：多模态仿真中的视觉社交智能基准测试

智能体可视化项目

VESTA：基于统计工具代理的视觉探索

ReVision：通过时间视觉冗余缩减扩展计算机使用智能体

提交意见反馈