SCAIL-2: 统一受控角色动画与端到端上下文内条件化

Hugging Face Daily Papers 2026/06/09 00:00 论文

摘要

SCAIL-2是一个框架，通过直接从驱动视频迁移运动而无需中间表示，实现了端到端的受控角色动画。它使用了统一任务分解、合成数据（MotionPair-60K）以及新颖的条件化技术，如上下文内掩码条件化和偏差感知DPO。

受控角色动画需要将运动从驱动序列迁移到参考角色。先前的工作严重依赖中间表示，包括用于表示运动的姿态骨架或用于表示环境的掩码背景，这不可避免地导致信息丢失。为了解决这个问题，我们提出了SCAIL-2，这是一个绕过这些中间表示并实现端到端角色动画的框架。通过将驱动视频直接拼接到序列中，模型可以从输入视频中获得所有必要的视觉信息。为了解决端到端数据缺乏的问题，我们使用解耦条件统一了角色动画的子任务，然后策划了一个管道来合成MotionPair-60K，这是一个包含角色动画异构任务的端到端运动迁移数据集。为了实现统一，我们利用上下文内掩码条件化和模式特定的RoPE作为超出文本指令和原始视觉信息的软指导。为了解决详细区域中的合成差异，我们提出了偏差感知DPO来构建偏好项以减轻误差。大量实验表明，我们的方法在各种角色动画任务中显著优于现有最先进方法。大量的合成数据子集以及模型权重将在我们的项目页面发布：https://teal024.github.io/SCAIL-2/。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - SCAIL-2：通过端到端上下文条件实现统一受控角色动画

来源：https://huggingface.co/papers/2606.10804

摘要

SCAIL-2 通过直接从驱动视频传递运动，无需中间表示，采用统一任务分解和合成数据生成，实现端到端的角色动画。

受控角色动画需要将运动从驱动序列传递到参考角色。先前的工作严重依赖中间表示，包括表示运动的姿态骨架或表示环境的遮罩背景，这不可避免地导致信息丢失。为解决这一问题，我们提出 SCAIL-2，一个绕过这些中间表示，实现端到端角色动画（https://huggingface.co/papers?q=end-to-end%20character%20animation）的框架。通过直接将驱动视频（https://huggingface.co/papers?q=driving%20videos）连接到序列中，模型可以从输入视频中获取所有所需的视觉信息。为解决端到端数据缺乏的问题，我们将角色动画的子任务与解耦条件（https://huggingface.co/papers?q=decoupled%20conditions）统一起来，然后构建一个管道来合成 MotionPair-60K（https://huggingface.co/papers?q=MotionPair-60K），这是一个包含角色动画异构任务的端到端运动传递（https://huggingface.co/papers?q=motion%20transfer）数据集。为实现统一，我们利用上下文遮罩条件（https://huggingface.co/papers?q=in-context%20mask%20conditioning）和模式特定 RoPE（https://huggingface.co/papers?q=mode-specific%20RoPE）作为超越文本指令和原始视觉信息的软引导。为解决合成数据在细节区域的差异，我们提出偏差感知 DPO（https://huggingface.co/papers?q=Bias-Aware%20DPO）来构建偏好项以减轻误差。大量实验表明，我们的方法在各种角色动画任务中显著优于现有最先进方法。合成数据的大部分子集以及模型权重将在我们的项目页面发布：https://teal024.github.io/SCAIL-2/。

查看 arXiv 页面（https://arxiv.org/abs/2606.10804）查看 PDF（https://arxiv.org/pdf/2606.10804）项目页面（https://teal024.github.io/SCAIL-2/）GitHub95（https://github.com/zai-org/SCAIL-2）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.10804）

在你的代理中获取此论文：

hf papers read 2606.10804

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型与此论文关联

请在一个模型的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。

引用此论文的数据集0

没有数据集与此论文关联

请在一个数据集的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2606.10804 以从本页链接。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到一个收藏（https://huggingface.co/new-collection）以从本页链接。

SCAIL-2: 统一受控角色动画与端到端上下文内条件化

论文页面 - SCAIL-2：通过端到端上下文条件实现统一受控角色动画

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

zai-org/SCAIL-2 · Hugging Face

实验用故事板规划的AI电影化场景，而非单提示生成

AnyMo：基于掩码建模的任意模态条件运动生成扩展

CogOmniControl: 基于推理的可控视频生成，通过创意意图认知

多样本思维链上下文学习：让上下文学习真正学会

提交意见反馈