X+Slides:面向受众条件的幻灯片生成基准测试

arXiv cs.AI 论文

摘要

X+Slides是一个新的基准,用于评估从源文档生成面向受众条件的幻灯片,它使用源基础探针和受众特定的效用权重。在DeepPresenter、SlideTailor和NotebookLM上的实验表明,当前系统能够恢复大量但不够完整的受众关键信息。

arXiv:2606.19256v1 公告类型: 新论文 摘要:从源文档自动生成幻灯片是大语言模型(LLMs)的一项重要应用。现有基准主要评估幻灯片的完整性和技术深度,而忽略了目标受众这一关键现实因素。例如,专家需要严谨的证明,而决策者更看重可操作的结论。为弥补这一不足,我们提出了X+Slides,一个专为面向受众条件的幻灯片生成设计的基准。该基准基于涵盖113个主题和七种演示场景的多样语料库,采用由8,133个去重源基础探针构建的动态评估框架。通过对同一源基础探针分配受众特定的效用权重,X+Slides报告四个互补指标:受众覆盖率衡量传达了多大程度的受众关键信息,领域覆盖率显示覆盖了哪些信息类型,效率衡量每单位注意力成本传递的效用,正确性验证幻灯片主张是否得到源文件支持。在DeepPresenter、SlideTailor和NotebookLM上的实验表明,当前系统能够恢复大量但仍有缺失的受众关键信息:在$\tau_A=0.7$时,DeepPresenter的最佳受众覆盖率达到0.714,SlideTailor达到0.594,NotebookLM消融实验达到0.853,同时显示出明显的依据差异。这些结果表明,视觉质量和广泛主题覆盖不应在没有源基础评估的情况下被视为证据支持。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:42

# X+Slides:面向受众条件化幻灯片生成的基准测试
来源:https://arxiv.org/abs/2606.19256
查看 PDF(https://arxiv.org/pdf/2606.19256)

> 摘要:从源文档自动生成幻灯片是大语言模型(LLMs)的一项重要应用。现有基准主要评估幻灯片的完整性和技术深度,而忽略了目标受众这一关键的现实因素。例如,专家需要严谨的证明,而决策者则优先考虑可操作的结论。为填补这一空白,我们提出了 X+Slides,一个专门为受众条件化幻灯片生成而设计的基准。基于涵盖 113 个主题和七种演示场景的多样化语料,X+Slides 采用动态评估框架,包含 8,133 个去重且基于源文档的探测问项。通过为相同的基于源文档的探测问项分配特定于受众的效用权重,X+Slides 报告四种互补指标:受众覆盖率(衡量传达了受众必要信息的多少)、领域覆盖率(显示涵盖的信息类型)、效率(衡量每单位注意力成本传递的效用)以及正确性(验证幻灯片的主张是否得到源文档支持)。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明,当前系统能够恢复大部分但尚不完整的受众必要信息:在 \(\tau_A=0.7\) 时,DeepPresenter 达到最佳受众覆盖率 0.714,SlideTailor 达到 0.594,NotebookLM 消融实验达到 0.853,同时显示出明显的证据支撑差异。这些结果表明,若无基于源文档的评估,视觉质量和广泛主题覆盖不应被视为证据支持。

## 提交历史

来自:陈浩东 \[查看邮件(https://arxiv.org/show-email/158b9e03/2606.19256)\] **\[v1\]**2026 年 6 月 17 日星期三 16:30:26 UTC(39,100 KB)

相似文章

DeepSlide:从幻灯片制品到演讲交付

arXiv cs.AI

DeepSlide 是一个人机协同的多智能体系统,覆盖完整的演示流程,从需求获取、带时间预算的叙事规划,到基于证据的幻灯片-脚本生成以及排练支持。它引入了一个双记分板基准,将静态制品质量与动态交付卓越性清晰分离,并在叙事流畅性、节奏精准度和幻灯片-脚本协同方面取得了显著提升。

AI生成的幻灯片:它们好吗?学生能分辨吗?

arXiv cs.AI

本文研究了使用生成式AI工具(NotebookLM、Claude、M365 Copilot、Cursor、Claude Code)从教师笔记生成幻灯片,发现编程助手生成的幻灯片质量最佳,且学生无法可靠地区分AI生成的幻灯片与人工制作的幻灯片。

ArcDeck:叙事驱动的论文到幻灯片生成

Hugging Face Daily Papers

ArcDeck 是一个多智能体框架,通过话语树和迭代智能体优化来建模逻辑流程,从而从学术论文生成演示幻灯片,性能优于直接摘要方法。该论文还引入了 ArcBench,这是一个新的基准测试,用于评估论文到幻灯片生成,强调叙事连贯性和逻辑结构。

Slide Deck Q&A 质量保证应用:面向教学问题的多阶段生成流水线

arXiv cs.CL

本文介绍了 slidesqaqa,这是一个基于 Flask 的软件系统,能从 PDF 幻灯片中生成富有教学价值的问题。该系统采用四阶段大语言模型流水线,依次进行文本和图像提取、全幻灯片范围内的问题规划、幻灯片标注以及输出整合,在技术讲座幻灯片上展示了高保真的问题生成能力。