帮助图表讲述它们的故事!基于论文的视频生成,解释复杂的科学图表

arXiv cs.CL 论文

摘要

介绍了 MINARD,一个从科学图表及其论文生成带旁白、区域定位的讲解视频的流水线,以及 FigTalk 基准和新的定位指标。

arXiv:2606.12576v1 Announce Type: new 摘要:科学图表将复杂的流程压缩到单个画布中,但理解它们需要基于论文、逐步讲解并与视觉高亮对齐的叙述——这是当前视频生成系统和基准所缺乏的能力。为解决这一问题,我们引入了基于论文的图表到视频生成:从图表及其论文生成带旁白、区域定位的讲解视频。我们提出了 MINARD(通过区域分解对叙述架构进行多模态解释),这是一个生成基于论文的叙述并依次将其与图表区域关联的流水线。我们还发布了 FigTalk 基准,该基准包含了新的序列级和组件级定位指标。在 FigTalk 上,MINARD 生成了类人且忠于论文的叙述,并在自动评估和人工评估中,在基于叙述的图表空间定位方面优于现有方法。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# 让图表讲述它们的故事!基于论文的视频生成解释复杂科学图表
来源:https://arxiv.org/abs/2606.12576
查看PDF (https://arxiv.org/pdf/2606.12576)

> 摘要:科学图表将复杂流程压缩到单一画布上,但理解它们需要基于论文、逐步叙述并配合视觉高亮——这是当前视频生成系统和基准测试所缺失的能力。为解决这一问题,我们提出基于论文的图表到视频生成:从图表及其论文中生成带旁白、区域定位的导览视频。我们提出MINARD(通过区域分解实现叙述架构的多模态解析)流程,该流程可生成基于论文的旁白,并顺序将其关联到图表区域。我们还发布FigTalk基准,附带新的顺序性和组件级定位评估指标。在FigTalk上,MINARD生成的旁白拟人化且忠于论文,在自动评估和人工评估中,与现有方法相比,在旁白条件下的图表空间定位任务上表现更优

## 提交历史

来自:Ishani Mondal [查看邮箱](https://arxiv.org/show-email/70f8b856/2606.12576)  
**[v1]** 2026年6月10日星期三 18:25:10 UTC(9,279 KB)

相似文章

面向一对多时序定位

Hugging Face Daily Papers

本文介绍了一对多时序定位(OMTG)这一新任务,用于从单个文本查询中定位多个不连续的视频片段,同时提供了基准、评估指标、包含56k样本的数据集以及新颖的奖励函数,取得了最新最优的结果,优于Gemini 2.5 Pro和Seed-1.8。

先见后码:面向空间感知的教育动画生成中的视觉先验学习

arXiv cs.AI

本文介绍了 OmniManim,一个基于渲染反馈感知的框架,利用大语言模型从自然语言描述生成教育动画。它通过引入显式的视觉规划、渲染后诊断和局部修复来解决元素重叠、对齐错误等视觉缺陷,并在新构建的数据集上展示了改进的渲染质量。

ArcDeck:叙事驱动的论文到幻灯片生成

Hugging Face Daily Papers

ArcDeck 是一个多智能体框架,通过话语树和迭代智能体优化来建模逻辑流程,从而从学术论文生成演示幻灯片,性能优于直接摘要方法。该论文还引入了 ArcBench,这是一个新的基准测试,用于评估论文到幻灯片生成,强调叙事连贯性和逻辑结构。