PersonaLive!用于直播的生动肖像图像动画
摘要
PersonaLive 是一个基于扩散模型的框架,用于直播中的实时生动肖像动画,通过混合隐式信号和自回归流式生成实现了显著的速度提升。
查看缓存全文
缓存时间: 2026/05/08 08:42
论文页面 - PersonaLive! 用于直播的富有表现力的肖像图像动画
来源: https://huggingface.co/papers/2512.11253
摘要
PersonaLive 是一个基于扩散的肖像动画框架,通过混合隐式信号、外观蒸馏和自回归流式生成来改善实时性能。
当前的基于扩散的肖像动画 (https://huggingface.co/papers?q=diffusion-based%20portrait%20animation) 模型主要侧重于提升视觉质量和表情逼真度,而忽视了生成延迟和实时性能,这限制了它们在直播场景中的应用范围。我们提出了 PersonaLive,这是一个新颖的基于扩散的框架,旨在实现多阶段训练流程下的流式实时肖像动画。具体而言,我们首先采用混合隐式信号 (https://huggingface.co/papers?q=hybrid%20implicit%20signals),即隐式面部表示 (https://huggingface.co/papers?q=implicit%20facial%20representations) 和 3D 隐式关键点 (https://huggingface.co/papers?q=3D%20implicit%20keypoints),以实现富有表现力的图像级运动控制。然后,提出一种少步外观蒸馏 (https://huggingface.co/papers?q=appearance%20distillation) 策略,以消除去噪过程中的外观冗余,极大地提高了推理效率。最后,我们引入了一种配备滑动训练策略 (https://huggingface.co/papers?q=sliding%20training%20strategy) 和历史关键帧机制 (https://huggingface.co/papers?q=historical%20keyframe%20mechanism) 的自回归微块流式生成 (https://huggingface.co/papers?q=autoregressive%20micro-chunk%20streaming%20generation) 范式,以实现低延迟且稳定的长期视频生成。大量实验表明,PersonaLive 实现了最先进的性能,与先前基于扩散的肖像动画 (https://huggingface.co/papers?q=diffusion-based%20portrait%20animation) 模型相比,速度提升了 7-22 倍。
查看 arXiv 页面 (https://arxiv.org/abs/2512.11253) 查看 PDF (https://arxiv.org/pdf/2512.11253) GitHub3.05k (https://github.com/GVCLab/PersonaLive) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2512.11253)
在您的 Agent 中获取此论文:
hf papers read 2512\.11253
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 4
huaichang/PersonaLive Image-to-Video• 更新于 2025 年 12 月 26 日 • 133 (https://huggingface.co/huaichang/PersonaLive)
suryatmodulus/PersonaLive Image-to-Video• 更新于 2 天前 • 2 (https://huggingface.co/suryatmodulus/PersonaLive)
Darell0009/SuperCam_Models Image-to-Video• 更新于 3 月 4 日 (https://huggingface.co/Darell0009/SuperCam_Models)
ballemann/PersonaLive Image-to-Video• 更新于约 1 个月前 (https://huggingface.co/ballemann/PersonaLive)
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2512.11253 即可从此页面建立链接。
引用此论文的 Spaces 1
包含此论文的收藏集 11
浏览包含此论文的 11 个收藏集 (https://huggingface.co/collections?paper=2512.11253)
相似文章
Kyohansha
Kyohansha 是一款网页端产品,提供 60FPS 的 Live2D AI 虚拟形象,并配备 Lite-RAG 长期记忆功能。
PersonaArena:用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架
PersonaArena 是一个动态模拟框架,利用大规模社交内容语料库和多智能体辩论评判机制,评估并提升大语言模型在真实社交场景中保持连贯且真实的人格层面角色扮演能力。
Persona.js
Persona.js 是一个JavaScript库,可为任何前端添加WebMCP原生AI聊天功能。
单一策略,无限NPC:面向可扩展游戏角色的角色追溯共享强化学习策略
提出PCSP,一种基于冻结LLM角色描述嵌入的单一强化学习策略,可在生活模拟游戏中实现可扩展、实时的角色可追溯NPC控制。实验表明,该方法实现了零样本角色识别和行为对齐,推理速度比LLM基线快。
ProactiveLLM: 学习主动交互的流式大语言模型
ProactiveLLM 提出了一种方法,使流式大语言模型能够基于内源性线索主动决定何时生成输出,通过基于掩码的流式建模和同步特权自蒸馏,在无需外部标注的情况下降低延迟。