X+Slides:面向受众条件的幻灯片生成基准测试
摘要
X+Slides是一个新的基准,用于评估从源文档生成面向受众条件的幻灯片,它使用源基础探针和受众特定的效用权重。在DeepPresenter、SlideTailor和NotebookLM上的实验表明,当前系统能够恢复大量但不够完整的受众关键信息。
查看缓存全文
缓存时间: 2026/06/18 05:42
# X+Slides:面向受众条件化幻灯片生成的基准测试 来源:https://arxiv.org/abs/2606.19256 查看 PDF(https://arxiv.org/pdf/2606.19256) > 摘要:从源文档自动生成幻灯片是大语言模型(LLMs)的一项重要应用。现有基准主要评估幻灯片的完整性和技术深度,而忽略了目标受众这一关键的现实因素。例如,专家需要严谨的证明,而决策者则优先考虑可操作的结论。为填补这一空白,我们提出了 X+Slides,一个专门为受众条件化幻灯片生成而设计的基准。基于涵盖 113 个主题和七种演示场景的多样化语料,X+Slides 采用动态评估框架,包含 8,133 个去重且基于源文档的探测问项。通过为相同的基于源文档的探测问项分配特定于受众的效用权重,X+Slides 报告四种互补指标:受众覆盖率(衡量传达了受众必要信息的多少)、领域覆盖率(显示涵盖的信息类型)、效率(衡量每单位注意力成本传递的效用)以及正确性(验证幻灯片的主张是否得到源文档支持)。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明,当前系统能够恢复大部分但尚不完整的受众必要信息:在 \(\tau_A=0.7\) 时,DeepPresenter 达到最佳受众覆盖率 0.714,SlideTailor 达到 0.594,NotebookLM 消融实验达到 0.853,同时显示出明显的证据支撑差异。这些结果表明,若无基于源文档的评估,视觉质量和广泛主题覆盖不应被视为证据支持。 ## 提交历史 来自:陈浩东 \[查看邮件(https://arxiv.org/show-email/158b9e03/2606.19256)\] **\[v1\]**2026 年 6 月 17 日星期三 16:30:26 UTC(39,100 KB)
相似文章
DeepSlide:从幻灯片制品到演讲交付
DeepSlide 是一个人机协同的多智能体系统,覆盖完整的演示流程,从需求获取、带时间预算的叙事规划,到基于证据的幻灯片-脚本生成以及排练支持。它引入了一个双记分板基准,将静态制品质量与动态交付卓越性清晰分离,并在叙事流畅性、节奏精准度和幻灯片-脚本协同方面取得了显著提升。
AI生成的幻灯片:它们好吗?学生能分辨吗?
本文研究了使用生成式AI工具(NotebookLM、Claude、M365 Copilot、Cursor、Claude Code)从教师笔记生成幻灯片,发现编程助手生成的幻灯片质量最佳,且学生无法可靠地区分AI生成的幻灯片与人工制作的幻灯片。
ArcDeck:叙事驱动的论文到幻灯片生成
ArcDeck 是一个多智能体框架,通过话语树和迭代智能体优化来建模逻辑流程,从而从学术论文生成演示幻灯片,性能优于直接摘要方法。该论文还引入了 ArcBench,这是一个新的基准测试,用于评估论文到幻灯片生成,强调叙事连贯性和逻辑结构。
Slide Deck Q&A 质量保证应用:面向教学问题的多阶段生成流水线
本文介绍了 slidesqaqa,这是一个基于 Flask 的软件系统,能从 PDF 幻灯片中生成富有教学价值的问题。该系统采用四阶段大语言模型流水线,依次进行文本和图像提取、全幻灯片范围内的问题规划、幻灯片标注以及输出整合,在技术讲座幻灯片上展示了高保真的问题生成能力。
MemSlides: 一种分层记忆驱动的智能体框架,用于个性化幻灯片生成与多轮局部修订
本文介绍了MemSlides,一种用于个性化幻灯片生成的分层记忆框架,它将长期用户档案、会话约束的工作记忆以及局部编辑的工具记忆分离开来,从而在不完全重新生成的情况下实现多轮修订。