PresentAgent-2: 迈向通用多模态演示代理

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

PresentAgent-2 是一个智能体框架，通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容，根据用户查询生成演示视频。

演示生成正从静态幻灯片创建，迈向具有研究依据、多模态媒体和互动交付的端到端演示视频生成。我们提出了 PresentAgent-2，这是一个用于根据用户查询生成演示视频的智能体框架。给定一个开放式用户查询和选定的演示模式，PresentAgent-2 首先将查询总结成一个聚焦的主题，并在适合演示的来源上进行深入调研，收集包括相关文本、图像、GIF 和视频在内的多模态资源。然后，它构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体组合成完整的演示视频。PresentAgent-2 在统一框架内支持三种独立的演示模式：单人演示（Single Presentation），生成单人旁白的演示视频；讨论（Discussion），创建具有结构化发言人角色的多发言人演示，例如用于提出引导性问题、解释概念、澄清细节和总结要点；互动（Interaction），单独支持基于生成的幻灯片、脚本、检索到的证据和演示上下文来回答观众问题。为了评估这些能力，我们构建了一个涵盖单人演示、讨论和互动场景的多模态演示基准，并针对内容质量、媒体相关性、动态媒体使用、对话自然度和互动依据设定了任务特定的评估标准。总体而言，PresentAgent-2 将演示生成从依赖文档的幻灯片创建，扩展为基于查询、有研究依据且包含多模态媒体、对话和互动的演示视频生成。代码：https://github.com/AIGeeksGroup/PresentAgent-2。网站：https://aigeeksgroup.github.io/PresentAgent-2。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - PresentAgent-2: 迈向通用多模态演示智能体

来源: https://huggingface.co/papers/2605.11363

摘要

PresentAgent-2 是一个智能体框架，可根据用户查询生成演示视频，它通过进行调研、创建多模态幻灯片，并在单人、讨论和互动模式下生成交互内容。

演示生成正从静态幻灯片创建，向端到端演示视频生成（https://huggingface.co/papers?q=presentation%20video%20generation）发展，融合研究支撑（https://huggingface.co/papers?q=research%20grounding）、多模态媒体（https://huggingface.co/papers?q=multimodal%20media）和互动交付。我们介绍 PresentAgent-2，一个用于根据用户查询生成演示视频的智能体框架（https://huggingface.co/papers?q=agentic%20framework）。给定一个开放式用户查询和选定的演示模式，PresentAgent-2 首先将查询总结为一个聚焦主题，并对适合演示的源头进行深度调研，收集多模态资源，包括相关文本、图像、GIF 和视频。然后它构建演示幻灯片、生成模式专属脚本，并将幻灯片、音频和动态媒体合成完整的演示视频。PresentAgent-2 在统一框架内支持三种独立的演示模式（https://huggingface.co/papers?q=presentation%20modes）：单人演示（https://huggingface.co/papers?q=Single%20Presentation），生成单人叙述的演示视频；讨论（https://huggingface.co/papers?q=Discussion），创建多说话人、具有结构化的说话人角色的演示，例如用于提出引导性问题、解释概念、澄清细节和总结要点；以及交互（https://huggingface.co/papers?q=Interaction），独立支持基于生成的幻灯片、脚本、检索到的证据和演示上下文来回答观众问题。为评估这些能力，我们构建了一个多模态演示基准，涵盖单人演示（https://huggingface.co/papers?q=single%20presentation）、讨论（https://huggingface.co/papers?q=discussion）和交互（https://huggingface.co/papers?q=interaction）场景，并设有针对内容质量、媒体相关性、动态媒体使用、对话自然度（https://huggingface.co/papers?q=dialogue%20naturalness）和交互支撑（https://huggingface.co/papers?q=interaction%20grounding）的任务专属评估标准。总体而言，PresentAgent-2 将演示生成从依赖文档的幻灯片创建，扩展为查询驱动、研究支撑的、包含多模态媒体（https://huggingface.co/papers?q=multimodal%20media）、对话和交互（https://huggingface.co/papers?q=interaction）的演示视频生成（https://huggingface.co/papers?q=presentation%20video%20generation）。代码：https://github.com/AIGeeksGroup/PresentAgent-2。网站：https://aigeeksgroup.github.io/PresentAgent-2/。

查看 arXiv 页面（https://arxiv.org/abs/2605.11363）查看 PDF（https://arxiv.org/pdf/2605.11363）项目页面（https://aigeeksgroup.github.io/PresentAgent-2/）GitHub2（https://github.com/AIGeeksGroup/PresentAgent-2）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.11363）

在您的智能体中获取此论文：

hf papers read 2605\.11363

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.11363 即可从此页面链接它。

引用此论文的数据集1

AIGeeksGroup/PresentEval 查看器•更新于约14小时前 • 58 • 63（https://huggingface.co/datasets/AIGeeksGroup/PresentEval）

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.11363 即可从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）即可从此页面链接它。

PresentAgent-2: 迈向通用多模态演示代理

论文页面 - PresentAgent-2: 迈向通用多模态演示智能体

摘要

引用此论文的模型0

引用此论文的数据集1

AIGeeksGroup/PresentEval 查看器•更新于约14小时前 • 58 • 63（https://huggingface.co/datasets/AIGeeksGroup/PresentEval）

引用此论文的 Space0

包含此论文的收藏0

相似文章

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Agent S2：一种面向计算机使用智能体的组合式通才-专才框架

我制作了10套游戏化、交互式的演示文稿，用于教授Agentic AI（别再读白皮书读到昏昏欲睡了）。

LectūraAgents: 自适应个性化AI辅助学习与具身教学的多智能体框架

Macaron-A2UI：面向个人智能体的生成式UI模型

提交意见反馈