用于人类图像动画的隐式偏好对齐
摘要
本文介绍了隐式偏好对齐(IPA),这是一种数据高效的训练后框架,可在无需成对偏好数据的情况下改善人类图像动画中的手部动作生成。它利用隐式奖励最大化和手部感知的局部优化来提高生成质量,同时降低数据整理成本。
查看缓存全文
缓存时间: 2026/05/13 08:11
论文页 - 用于人类图像动画的隐式偏好对齐
来源:https://huggingface.co/papers/2605.07545
摘要
隐式偏好对齐(IPA)通过数据高效的后期训练解决了手部运动生成的挑战,消除了对成对偏好数据的需求,同时利用感知手部的局部优化来提高质量。
人类图像动画取得了显著进展,但由于手部具有高自由度和运动复杂性,生成高保真手部运动仍然是一个持续的挑战。虽然来自人类反馈的强化学习(https://huggingface.co/papers?q=reinforcement%20learning%20from%20human%20feedback),特别是直接偏好优化(https://huggingface.co/papers?q=direct%20preference%20optimization),提供了解决方案,但它需要构建严格的偏好对(https://huggingface.co/papers?q=preference%20pairs)。然而,由于逐帧不一致性,为动态手部区域策划这些成对数据成本高昂且通常不切实际。在本文中,我们提出了隐式偏好对齐(https://huggingface.co/papers?q=Implicit%20Preference%20Alignment)(IPA),这是一种数据高效的后期训练框架(https://huggingface.co/papers?q=post-training%20framework),无需成对的偏好数据。基于隐式奖励最大化(https://huggingface.co/papers?q=implicit%20reward%20maximization)的理论基础,IPA通过最大化自生成高质量样本的可能性同时惩罚偏离预训练先验来实现模型对齐。此外,我们引入了感知手部的局部优化(https://huggingface.co/papers?q=Hand-Aware%20Local%20Optimization)机制,以明确引导对齐过程朝向手部区域。实验表明,我们的方法实现了有效的偏好优化以提升手部生成质量,同时显著降低了构建偏好数据的门槛。代码发布于 https://github.com/mdswyz/IPA
查看 arXiv 页面 (https://arxiv.org/abs/2605.07545) 查看 PDF (https://arxiv.org/pdf/2605.07545) 项目页面 (https://github.com/mdswyz/IPA) GitHub (https://github.com/mdswyz/IPA) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07545)
在您的代理中获取此论文:
hf papers read 2605.07545
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有与此论文链接的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.07545 以从此页面链接它。
引用此论文的数据集 0
没有与此论文链接的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.07545 以从此页面链接它。
引用此论文的空间 0
没有与此论文链接的空间
在空间的 README.md 中引用 arxiv.org/abs/2605.07545 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
IAPO:面向小规模多模态智能体工具使用的输入归因感知策略优化
本文介绍了IAPO,一种通过将输入归因与更强大的教师模型对齐,来提升多模态小语言模型工具调用能力的强化学习算法。在Qwen2.5-VL-3B上的实验表明,在六个测试集上,视觉问答准确率平均提升了3%。
先见后码:面向空间感知的教育动画生成中的视觉先验学习
本文介绍了 OmniManim,一个基于渲染反馈感知的框架,利用大语言模型从自然语言描述生成教育动画。它通过引入显式的视觉规划、渲染后诊断和局部修复来解决元素重叠、对齐错误等视觉缺陷,并在新构建的数据集上展示了改进的渲染质量。
从正确性到偏好:个性化智能体强化学习框架
本文提出了一个统一的个性化智能体强化学习框架,将通用任务奖励与个性化偏好奖励解耦,引入了PARPO和PSGM用于偏好对齐的策略优化和技能检索。
基于噪声追踪对的整流流离线偏好优化
本文介绍了PNAPO,一种针对整流流模型的离线偏好优化框架,该框架通过噪声样本增强偏好数据,并采用动态正则化来提高训练效率和样本效率。
从人类偏好中学习
OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。