帮助图表讲述它们的故事！基于论文的视频生成，解释复杂的科学图表

arXiv cs.CL 2026/06/12 04:00 论文

scientific-figures video-generation narration grounding benchmark multimodal

摘要

介绍了 MINARD，一个从科学图表及其论文生成带旁白、区域定位的讲解视频的流水线，以及 FigTalk 基准和新的定位指标。

arXiv:2606.12576v1 Announce Type: new 摘要：科学图表将复杂的流程压缩到单个画布中，但理解它们需要基于论文、逐步讲解并与视觉高亮对齐的叙述——这是当前视频生成系统和基准所缺乏的能力。为解决这一问题，我们引入了基于论文的图表到视频生成：从图表及其论文生成带旁白、区域定位的讲解视频。我们提出了 MINARD（通过区域分解对叙述架构进行多模态解释），这是一个生成基于论文的叙述并依次将其与图表区域关联的流水线。我们还发布了 FigTalk 基准，该基准包含了新的序列级和组件级定位指标。在 FigTalk 上，MINARD 生成了类人且忠于论文的叙述，并在自动评估和人工评估中，在基于叙述的图表空间定位方面优于现有方法。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:50

# 让图表讲述它们的故事！基于论文的视频生成解释复杂科学图表
来源：https://arxiv.org/abs/2606.12576
查看PDF (https://arxiv.org/pdf/2606.12576)

> 摘要：科学图表将复杂流程压缩到单一画布上，但理解它们需要基于论文、逐步叙述并配合视觉高亮——这是当前视频生成系统和基准测试所缺失的能力。为解决这一问题，我们提出基于论文的图表到视频生成：从图表及其论文中生成带旁白、区域定位的导览视频。我们提出MINARD（通过区域分解实现叙述架构的多模态解析）流程，该流程可生成基于论文的旁白，并顺序将其关联到图表区域。我们还发布FigTalk基准，附带新的顺序性和组件级定位评估指标。在FigTalk上，MINARD生成的旁白拟人化且忠于论文，在自动评估和人工评估中，与现有方法相比，在旁白条件下的图表空间定位任务上表现更优

## 提交历史

来自：Ishani Mondal [查看邮箱](https://arxiv.org/show-email/70f8b856/2606.12576)  
**[v1]** 2026年6月10日星期三 18:25:10 UTC（9,279 KB）

帮助图表讲述它们的故事！基于论文的视频生成，解释复杂的科学图表

相似文章

CityRAG：基于空间锚定的视频生成，步入真实城市

AutoFigure: 生成与精炼可出版的科学插图

面向一对多时序定位

先见后码：面向空间感知的教育动画生成中的视觉先验学习

ArcDeck：叙事驱动的论文到幻灯片生成

提交意见反馈