用于人类图像动画的隐式偏好对齐

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文介绍了隐式偏好对齐（IPA），这是一种数据高效的训练后框架，可在无需成对偏好数据的情况下改善人类图像动画中的手部动作生成。它利用隐式奖励最大化和手部感知的局部优化来提高生成质量，同时降低数据整理成本。

人类图像动画取得了显著进展，但由于手部动作具有高自由度且运动复杂，生成高保真度的手部动作仍然是一个持久挑战。尽管基于人类反馈的强化学习，尤其是直接偏好优化，提供了解决方案的可能性，但它需要构建严格的偏好对。然而，由于帧间不一致性，为动态手部区域策划这样的偏好对成本高昂且通常不切实际。在本文中，我们提出了隐式偏好对齐（IPA），这是一种无需成对偏好数据的数据高效训练后框架。IPA 在理论上基于隐式奖励最大化，通过最大化模型自生成高质量样本的可能性并惩罚偏离预训练先验的情况，来对齐模型。此外，我们引入了手部感知局部优化机制，明确引导对齐过程向手部区域倾斜。实验表明，我们的方法实现了有效的偏好优化，提高了手部生成质量，同时显著降低了构建偏好数据的门槛。代码已发布在 https://github.com/mdswyz/IPA

查看原文

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页 - 用于人类图像动画的隐式偏好对齐

来源：https://huggingface.co/papers/2605.07545

摘要

隐式偏好对齐（IPA）通过数据高效的后期训练解决了手部运动生成的挑战，消除了对成对偏好数据的需求，同时利用感知手部的局部优化来提高质量。

人类图像动画取得了显著进展，但由于手部具有高自由度和运动复杂性，生成高保真手部运动仍然是一个持续的挑战。虽然来自人类反馈的强化学习（https://huggingface.co/papers?q=reinforcement%20learning%20from%20human%20feedback），特别是直接偏好优化（https://huggingface.co/papers?q=direct%20preference%20optimization），提供了解决方案，但它需要构建严格的偏好对（https://huggingface.co/papers?q=preference%20pairs）。然而，由于逐帧不一致性，为动态手部区域策划这些成对数据成本高昂且通常不切实际。在本文中，我们提出了隐式偏好对齐（https://huggingface.co/papers?q=Implicit%20Preference%20Alignment）(IPA)，这是一种数据高效的后期训练框架（https://huggingface.co/papers?q=post-training%20framework），无需成对的偏好数据。基于隐式奖励最大化（https://huggingface.co/papers?q=implicit%20reward%20maximization）的理论基础，IPA通过最大化自生成高质量样本的可能性同时惩罚偏离预训练先验来实现模型对齐。此外，我们引入了感知手部的局部优化（https://huggingface.co/papers?q=Hand-Aware%20Local%20Optimization）机制，以明确引导对齐过程朝向手部区域。实验表明，我们的方法实现了有效的偏好优化以提升手部生成质量，同时显著降低了构建偏好数据的门槛。代码发布于 https://github.com/mdswyz/IPA

查看 arXiv 页面 (https://arxiv.org/abs/2605.07545) 查看 PDF (https://arxiv.org/pdf/2605.07545) 项目页面 (https://github.com/mdswyz/IPA) GitHub (https://github.com/mdswyz/IPA) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07545)

在您的代理中获取此论文：

hf papers read 2605.07545

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有与此论文链接的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.07545 以从此页面链接它。

引用此论文的数据集 0

没有与此论文链接的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.07545 以从此页面链接它。

引用此论文的空间 0

没有与此论文链接的空间

在空间的 README.md 中引用 arxiv.org/abs/2605.07545 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

用于人类图像动画的隐式偏好对齐

论文页 - 用于人类图像动画的隐式偏好对齐

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的收藏集 0

相似文章

IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

先见后码：面向空间感知的教育动画生成中的视觉先验学习

从正确性到偏好：个性化智能体强化学习框架

基于噪声追踪对的整流流离线偏好优化

从人类偏好中学习

提交意见反馈