PresentAgent-2: 迈向通用多模态演示代理

Hugging Face Daily Papers 论文

摘要

PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。

演示生成正从静态幻灯片创建,迈向具有研究依据、多模态媒体和互动交付的端到端演示视频生成。我们提出了 PresentAgent-2,这是一个用于根据用户查询生成演示视频的智能体框架。给定一个开放式用户查询和选定的演示模式,PresentAgent-2 首先将查询总结成一个聚焦的主题,并在适合演示的来源上进行深入调研,收集包括相关文本、图像、GIF 和视频在内的多模态资源。然后,它构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体组合成完整的演示视频。PresentAgent-2 在统一框架内支持三种独立的演示模式:单人演示(Single Presentation),生成单人旁白的演示视频;讨论(Discussion),创建具有结构化发言人角色的多发言人演示,例如用于提出引导性问题、解释概念、澄清细节和总结要点;互动(Interaction),单独支持基于生成的幻灯片、脚本、检索到的证据和演示上下文来回答观众问题。为了评估这些能力,我们构建了一个涵盖单人演示、讨论和互动场景的多模态演示基准,并针对内容质量、媒体相关性、动态媒体使用、对话自然度和互动依据设定了任务特定的评估标准。总体而言,PresentAgent-2 将演示生成从依赖文档的幻灯片创建,扩展为基于查询、有研究依据且包含多模态媒体、对话和互动的演示视频生成。代码:https://github.com/AIGeeksGroup/PresentAgent-2。网站:https://aigeeksgroup.github.io/PresentAgent-2。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - PresentAgent-2: 迈向通用多模态演示智能体

来源: https://huggingface.co/papers/2605.11363

摘要

PresentAgent-2 是一个智能体框架,可根据用户查询生成演示视频,它通过进行调研、创建多模态幻灯片,并在单人、讨论和互动模式下生成交互内容。

演示生成正从静态幻灯片创建,向端到端演示视频生成(https://huggingface.co/papers?q=presentation%20video%20generation)发展,融合研究支撑(https://huggingface.co/papers?q=research%20grounding)、多模态媒体(https://huggingface.co/papers?q=multimodal%20media)和互动交付。我们介绍 PresentAgent-2,一个用于根据用户查询生成演示视频的智能体框架(https://huggingface.co/papers?q=agentic%20framework)。给定一个开放式用户查询和选定的演示模式,PresentAgent-2 首先将查询总结为一个聚焦主题,并对适合演示的源头进行深度调研,收集多模态资源,包括相关文本、图像、GIF 和视频。然后它构建演示幻灯片、生成模式专属脚本,并将幻灯片、音频和动态媒体合成完整的演示视频。PresentAgent-2 在统一框架内支持三种独立的演示模式(https://huggingface.co/papers?q=presentation%20modes):单人演示(https://huggingface.co/papers?q=Single%20Presentation),生成单人叙述的演示视频;讨论(https://huggingface.co/papers?q=Discussion),创建多说话人、具有结构化的说话人角色的演示,例如用于提出引导性问题、解释概念、澄清细节和总结要点;以及交互(https://huggingface.co/papers?q=Interaction),独立支持基于生成的幻灯片、脚本、检索到的证据和演示上下文来回答观众问题。为评估这些能力,我们构建了一个多模态演示基准,涵盖单人演示(https://huggingface.co/papers?q=single%20presentation)、讨论(https://huggingface.co/papers?q=discussion)和交互(https://huggingface.co/papers?q=interaction)场景,并设有针对内容质量、媒体相关性、动态媒体使用、对话自然度(https://huggingface.co/papers?q=dialogue%20naturalness)和交互支撑(https://huggingface.co/papers?q=interaction%20grounding)的任务专属评估标准。总体而言,PresentAgent-2 将演示生成从依赖文档的幻灯片创建,扩展为查询驱动、研究支撑的、包含多模态媒体(https://huggingface.co/papers?q=multimodal%20media)、对话和交互(https://huggingface.co/papers?q=interaction)的演示视频生成(https://huggingface.co/papers?q=presentation%20video%20generation)。代码:https://github.com/AIGeeksGroup/PresentAgent-2。网站:https://aigeeksgroup.github.io/PresentAgent-2/。

查看 arXiv 页面(https://arxiv.org/abs/2605.11363)查看 PDF(https://arxiv.org/pdf/2605.11363)项目页面(https://aigeeksgroup.github.io/PresentAgent-2/)GitHub2(https://github.com/AIGeeksGroup/PresentAgent-2)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11363)

在您的智能体中获取此论文:

hf papers read 2605\.11363

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.11363 即可从此页面链接它。

引用此论文的数据集1

AIGeeksGroup/PresentEval 查看器•更新于约14小时前 • 58 • 63(https://huggingface.co/datasets/AIGeeksGroup/PresentEval)

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.11363 即可从此页面链接它。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接它。

相似文章

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers

MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。

LectūraAgents: 自适应个性化AI辅助学习与具身教学的多智能体框架

Hugging Face Daily Papers

LectūraAgents是一个用于自适应个性化学习的多智能体框架,它模拟教授与学生的互动,并生成与学习者画像对齐的具身教学动作。它引入了层级架构、自适应具身教学机制以及教学动作-语音对齐算法,在现有方法上表现出一致的改进。

Macaron-A2UI:面向个人智能体的生成式UI模型

Hugging Face Daily Papers

介绍了Macaron-A2UI,一种用于个人智能体的生成式UI模型,可综合动态界面与轻量级可执行操作,超越纯文本聊天。本文引入大规模语料库、A2UI-Bench基准,并使用LoRA微调和强化学习训练了高达754B参数的模型,取得了显著成果。