PersonaLive!用于直播的生动肖像图像动画

Papers with Code Trending 论文

摘要

PersonaLive 是一个基于扩散模型的框架,用于直播中的实时生动肖像动画,通过混合隐式信号和自回归流式生成实现了显著的速度提升。

当前基于扩散模型的肖像动画模型主要侧重于提升视觉质量和表情逼真度,而往往忽视了生成延迟和实时性能,这限制了它们在直播场景中的应用范围。我们提出了 PersonaLive,这是一种新颖的基于扩散的框架,旨在通过多阶段训练方案实现流式实时肖像动画。具体而言,我们首先采用混合隐式信号,即隐式面部表征和 3D 隐式关键点,以实现生动的图像级运动控制。然后,提出了一种少步外观蒸馏策略,以消除去噪过程中的外观冗余,极大地提高了推理效率。最后,我们引入了一种自回归微块流式生成范式,并配备了滑动训练策略和历史关键帧机制,以实现低延迟和稳定的长期视频生成。大量实验表明,PersonaLive 实现了最先进的性能,与先前的基于扩散的肖像动画模型相比,速度提升了高达 7-22 倍。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:42

论文页面 - PersonaLive! 用于直播的富有表现力的肖像图像动画

来源: https://huggingface.co/papers/2512.11253

摘要

PersonaLive 是一个基于扩散的肖像动画框架,通过混合隐式信号、外观蒸馏和自回归流式生成来改善实时性能。

当前的基于扩散的肖像动画 (https://huggingface.co/papers?q=diffusion-based%20portrait%20animation) 模型主要侧重于提升视觉质量和表情逼真度,而忽视了生成延迟和实时性能,这限制了它们在直播场景中的应用范围。我们提出了 PersonaLive,这是一个新颖的基于扩散的框架,旨在实现多阶段训练流程下的流式实时肖像动画。具体而言,我们首先采用混合隐式信号 (https://huggingface.co/papers?q=hybrid%20implicit%20signals),即隐式面部表示 (https://huggingface.co/papers?q=implicit%20facial%20representations) 和 3D 隐式关键点 (https://huggingface.co/papers?q=3D%20implicit%20keypoints),以实现富有表现力的图像级运动控制。然后,提出一种少步外观蒸馏 (https://huggingface.co/papers?q=appearance%20distillation) 策略,以消除去噪过程中的外观冗余,极大地提高了推理效率。最后,我们引入了一种配备滑动训练策略 (https://huggingface.co/papers?q=sliding%20training%20strategy) 和历史关键帧机制 (https://huggingface.co/papers?q=historical%20keyframe%20mechanism) 的自回归微块流式生成 (https://huggingface.co/papers?q=autoregressive%20micro-chunk%20streaming%20generation) 范式,以实现低延迟且稳定的长期视频生成。大量实验表明,PersonaLive 实现了最先进的性能,与先前基于扩散的肖像动画 (https://huggingface.co/papers?q=diffusion-based%20portrait%20animation) 模型相比,速度提升了 7-22 倍。

查看 arXiv 页面 (https://arxiv.org/abs/2512.11253) 查看 PDF (https://arxiv.org/pdf/2512.11253) GitHub3.05k (https://github.com/GVCLab/PersonaLive) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2512.11253)

在您的 Agent 中获取此论文:

hf papers read 2512\.11253

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 4

huaichang/PersonaLive Image-to-Video• 更新于 2025 年 12 月 26 日 • 133 (https://huggingface.co/huaichang/PersonaLive)

suryatmodulus/PersonaLive Image-to-Video• 更新于 2 天前 • 2 (https://huggingface.co/suryatmodulus/PersonaLive)

Darell0009/SuperCam_Models Image-to-Video• 更新于 3 月 4 日 (https://huggingface.co/Darell0009/SuperCam_Models)

ballemann/PersonaLive Image-to-Video• 更新于约 1 个月前 (https://huggingface.co/ballemann/PersonaLive)

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2512.11253 即可从此页面建立链接。

引用此论文的 Spaces 1

包含此论文的收藏集 11

浏览包含此论文的 11 个收藏集 (https://huggingface.co/collections?paper=2512.11253)

相似文章

Kyohansha

Product Hunt

Kyohansha 是一款网页端产品,提供 60FPS 的 Live2D AI 虚拟形象,并配备 Lite-RAG 长期记忆功能。

Persona.js

Product Hunt

Persona.js 是一个JavaScript库,可为任何前端添加WebMCP原生AI聊天功能。

ProactiveLLM: 学习主动交互的流式大语言模型

arXiv cs.CL

ProactiveLLM 提出了一种方法,使流式大语言模型能够基于内源性线索主动决定何时生成输出,通过基于掩码的流式建模和同步特权自蒸馏,在无需外部标注的情况下降低延迟。