SCAIL-2: 统一受控角色动画与端到端上下文内条件化

Hugging Face Daily Papers 论文

摘要

SCAIL-2是一个框架,通过直接从驱动视频迁移运动而无需中间表示,实现了端到端的受控角色动画。它使用了统一任务分解、合成数据(MotionPair-60K)以及新颖的条件化技术,如上下文内掩码条件化和偏差感知DPO。

受控角色动画需要将运动从驱动序列迁移到参考角色。先前的工作严重依赖中间表示,包括用于表示运动的姿态骨架或用于表示环境的掩码背景,这不可避免地导致信息丢失。为了解决这个问题,我们提出了SCAIL-2,这是一个绕过这些中间表示并实现端到端角色动画的框架。通过将驱动视频直接拼接到序列中,模型可以从输入视频中获得所有必要的视觉信息。为了解决端到端数据缺乏的问题,我们使用解耦条件统一了角色动画的子任务,然后策划了一个管道来合成MotionPair-60K,这是一个包含角色动画异构任务的端到端运动迁移数据集。为了实现统一,我们利用上下文内掩码条件化和模式特定的RoPE作为超出文本指令和原始视觉信息的软指导。为了解决详细区域中的合成差异,我们提出了偏差感知DPO来构建偏好项以减轻误差。大量实验表明,我们的方法在各种角色动画任务中显著优于现有最先进方法。大量的合成数据子集以及模型权重将在我们的项目页面发布:https://teal024.github.io/SCAIL-2/。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - SCAIL-2:通过端到端上下文条件实现统一受控角色动画

来源:https://huggingface.co/papers/2606.10804

摘要

SCAIL-2 通过直接从驱动视频传递运动,无需中间表示,采用统一任务分解和合成数据生成,实现端到端的角色动画。

受控角色动画需要将运动从驱动序列传递到参考角色。先前的工作严重依赖中间表示,包括表示运动的姿态骨架或表示环境的遮罩背景,这不可避免地导致信息丢失。为解决这一问题,我们提出 SCAIL-2,一个绕过这些中间表示,实现端到端角色动画(https://huggingface.co/papers?q=end-to-end%20character%20animation)的框架。通过直接将驱动视频(https://huggingface.co/papers?q=driving%20videos)连接到序列中,模型可以从输入视频中获取所有所需的视觉信息。为解决端到端数据缺乏的问题,我们将角色动画的子任务与解耦条件(https://huggingface.co/papers?q=decoupled%20conditions)统一起来,然后构建一个管道来合成 MotionPair-60K(https://huggingface.co/papers?q=MotionPair-60K),这是一个包含角色动画异构任务的端到端运动传递(https://huggingface.co/papers?q=motion%20transfer)数据集。为实现统一,我们利用上下文遮罩条件(https://huggingface.co/papers?q=in-context%20mask%20conditioning)和模式特定 RoPE(https://huggingface.co/papers?q=mode-specific%20RoPE)作为超越文本指令和原始视觉信息的软引导。为解决合成数据在细节区域的差异,我们提出偏差感知 DPO(https://huggingface.co/papers?q=Bias-Aware%20DPO)来构建偏好项以减轻误差。大量实验表明,我们的方法在各种角色动画任务中显著优于现有最先进方法。合成数据的大部分子集以及模型权重将在我们的项目页面发布:https://teal024.github.io/SCAIL-2/。

查看 arXiv 页面(https://arxiv.org/abs/2606.10804)查看 PDF(https://arxiv.org/pdf/2606.10804)项目页面(https://teal024.github.io/SCAIL-2/)GitHub95(https://github.com/zai-org/SCAIL-2)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10804)

在你的代理中获取此论文:

hf papers read 2606.10804

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型与此论文关联

请在一个模型的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。

引用此论文的数据集0

没有数据集与此论文关联

请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到一个收藏(https://huggingface.co/new-collection)以从本页链接。

相似文章

zai-org/SCAIL-2 · Hugging Face

Reddit r/LocalLLaMA

SCAIL-2 是一个用于端到端受控角色动画的开源模型,它使用驱动视频动画化参考角色,支持角色替换和多角色场景,无需中间姿态表示。

AnyMo:基于掩码建模的任意模态条件运动生成扩展

Hugging Face Daily Papers

本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。

CogOmniControl: 基于推理的可控视频生成,通过创意意图认知

Hugging Face Daily Papers

CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。

多样本思维链上下文学习:让上下文学习真正学会

Hugging Face Daily Papers

本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。