SCAIL-2: 统一受控角色动画与端到端上下文内条件化
摘要
SCAIL-2是一个框架,通过直接从驱动视频迁移运动而无需中间表示,实现了端到端的受控角色动画。它使用了统一任务分解、合成数据(MotionPair-60K)以及新颖的条件化技术,如上下文内掩码条件化和偏差感知DPO。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - SCAIL-2:通过端到端上下文条件实现统一受控角色动画
来源:https://huggingface.co/papers/2606.10804
摘要
SCAIL-2 通过直接从驱动视频传递运动,无需中间表示,采用统一任务分解和合成数据生成,实现端到端的角色动画。
受控角色动画需要将运动从驱动序列传递到参考角色。先前的工作严重依赖中间表示,包括表示运动的姿态骨架或表示环境的遮罩背景,这不可避免地导致信息丢失。为解决这一问题,我们提出 SCAIL-2,一个绕过这些中间表示,实现端到端角色动画(https://huggingface.co/papers?q=end-to-end%20character%20animation)的框架。通过直接将驱动视频(https://huggingface.co/papers?q=driving%20videos)连接到序列中,模型可以从输入视频中获取所有所需的视觉信息。为解决端到端数据缺乏的问题,我们将角色动画的子任务与解耦条件(https://huggingface.co/papers?q=decoupled%20conditions)统一起来,然后构建一个管道来合成 MotionPair-60K(https://huggingface.co/papers?q=MotionPair-60K),这是一个包含角色动画异构任务的端到端运动传递(https://huggingface.co/papers?q=motion%20transfer)数据集。为实现统一,我们利用上下文遮罩条件(https://huggingface.co/papers?q=in-context%20mask%20conditioning)和模式特定 RoPE(https://huggingface.co/papers?q=mode-specific%20RoPE)作为超越文本指令和原始视觉信息的软引导。为解决合成数据在细节区域的差异,我们提出偏差感知 DPO(https://huggingface.co/papers?q=Bias-Aware%20DPO)来构建偏好项以减轻误差。大量实验表明,我们的方法在各种角色动画任务中显著优于现有最先进方法。合成数据的大部分子集以及模型权重将在我们的项目页面发布:https://teal024.github.io/SCAIL-2/。
查看 arXiv 页面(https://arxiv.org/abs/2606.10804)查看 PDF(https://arxiv.org/pdf/2606.10804)项目页面(https://teal024.github.io/SCAIL-2/)GitHub95(https://github.com/zai-org/SCAIL-2)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10804)
在你的代理中获取此论文:
hf papers read 2606.10804
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型与此论文关联
请在一个模型的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。
引用此论文的数据集0
没有数据集与此论文关联
请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。
引用此论文的 Spaces0
没有 Space 与此论文关联
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。
包含此论文的收藏0
没有收藏包含此论文
请将此论文添加到一个收藏(https://huggingface.co/new-collection)以从本页链接。
相似文章
zai-org/SCAIL-2 · Hugging Face
SCAIL-2 是一个用于端到端受控角色动画的开源模型,它使用驱动视频动画化参考角色,支持角色替换和多角色场景,无需中间姿态表示。
实验用故事板规划的AI电影化场景,而非单提示生成
探讨了一种故事板规划的AI电影化场景方法,先构建序列结构再逐镜头生成,相比于单提示生成,能产生更连贯的视频,同时指出了当前弱点如身份漂移和交互物理。
AnyMo:基于掩码建模的任意模态条件运动生成扩展
本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。
CogOmniControl: 基于推理的可控视频生成,通过创意意图认知
CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。
多样本思维链上下文学习:让上下文学习真正学会
本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。