PresentAgent-2: 迈向通用多模态演示代理
摘要
PresentAgent-2 是一个智能体框架,通过开展调研、创建多模态幻灯片并生成跨单人、讨论和互动模式的交互式内容,根据用户查询生成演示视频。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - PresentAgent-2: 迈向通用多模态演示智能体
来源: https://huggingface.co/papers/2605.11363
摘要
PresentAgent-2 是一个智能体框架,可根据用户查询生成演示视频,它通过进行调研、创建多模态幻灯片,并在单人、讨论和互动模式下生成交互内容。
演示生成正从静态幻灯片创建,向端到端演示视频生成(https://huggingface.co/papers?q=presentation%20video%20generation)发展,融合研究支撑(https://huggingface.co/papers?q=research%20grounding)、多模态媒体(https://huggingface.co/papers?q=multimodal%20media)和互动交付。我们介绍 PresentAgent-2,一个用于根据用户查询生成演示视频的智能体框架(https://huggingface.co/papers?q=agentic%20framework)。给定一个开放式用户查询和选定的演示模式,PresentAgent-2 首先将查询总结为一个聚焦主题,并对适合演示的源头进行深度调研,收集多模态资源,包括相关文本、图像、GIF 和视频。然后它构建演示幻灯片、生成模式专属脚本,并将幻灯片、音频和动态媒体合成完整的演示视频。PresentAgent-2 在统一框架内支持三种独立的演示模式(https://huggingface.co/papers?q=presentation%20modes):单人演示(https://huggingface.co/papers?q=Single%20Presentation),生成单人叙述的演示视频;讨论(https://huggingface.co/papers?q=Discussion),创建多说话人、具有结构化的说话人角色的演示,例如用于提出引导性问题、解释概念、澄清细节和总结要点;以及交互(https://huggingface.co/papers?q=Interaction),独立支持基于生成的幻灯片、脚本、检索到的证据和演示上下文来回答观众问题。为评估这些能力,我们构建了一个多模态演示基准,涵盖单人演示(https://huggingface.co/papers?q=single%20presentation)、讨论(https://huggingface.co/papers?q=discussion)和交互(https://huggingface.co/papers?q=interaction)场景,并设有针对内容质量、媒体相关性、动态媒体使用、对话自然度(https://huggingface.co/papers?q=dialogue%20naturalness)和交互支撑(https://huggingface.co/papers?q=interaction%20grounding)的任务专属评估标准。总体而言,PresentAgent-2 将演示生成从依赖文档的幻灯片创建,扩展为查询驱动、研究支撑的、包含多模态媒体(https://huggingface.co/papers?q=multimodal%20media)、对话和交互(https://huggingface.co/papers?q=interaction)的演示视频生成(https://huggingface.co/papers?q=presentation%20video%20generation)。代码:https://github.com/AIGeeksGroup/PresentAgent-2。网站:https://aigeeksgroup.github.io/PresentAgent-2/。
查看 arXiv 页面(https://arxiv.org/abs/2605.11363)查看 PDF(https://arxiv.org/pdf/2605.11363)项目页面(https://aigeeksgroup.github.io/PresentAgent-2/)GitHub2(https://github.com/AIGeeksGroup/PresentAgent-2)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11363)
在您的智能体中获取此论文:
hf papers read 2605\.11363
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.11363 即可从此页面链接它。
引用此论文的数据集1
AIGeeksGroup/PresentEval 查看器•更新于约14小时前 • 58 • 63(https://huggingface.co/datasets/AIGeeksGroup/PresentEval)
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.11363 即可从此页面链接它。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接它。
相似文章
MM-WebAgent: 一种用于网页生成的分层多模态Web智能体
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。
Agent S2:一种面向计算机使用智能体的组合式通才-专才框架
Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。
我制作了10套游戏化、交互式的演示文稿,用于教授Agentic AI(别再读白皮书读到昏昏欲睡了)。
一位开发者在AgentSwarms平台内构建了10套游戏化、交互式的幻灯片,用于教授Agentic AI概念(如ReAct循环、多智能体群体和生产级RAG),采用主动回忆而非被动阅读的方式。
LectūraAgents: 自适应个性化AI辅助学习与具身教学的多智能体框架
LectūraAgents是一个用于自适应个性化学习的多智能体框架,它模拟教授与学生的互动,并生成与学习者画像对齐的具身教学动作。它引入了层级架构、自适应具身教学机制以及教学动作-语音对齐算法,在现有方法上表现出一致的改进。
Macaron-A2UI:面向个人智能体的生成式UI模型
介绍了Macaron-A2UI,一种用于个人智能体的生成式UI模型,可综合动态界面与轻量级可执行操作,超越纯文本聊天。本文引入大规模语料库、A2UI-Bench基准,并使用LoRA微调和强化学习训练了高达754B参数的模型,取得了显著成果。