PhysDrift：弥合人形机器人共语动作生成中的具身差距

arXiv cs.AI 2026/06/20 04:00 论文

humanoid-robots co-speech-motion embodiment-gap motion-generation arxiv robot-control speech-driven-motion

摘要

本文识别出由以人为中心的管道导致的人形机器人共语动作生成中的具身差距，并提出PhysDrift，一种具身感知框架，直接从语音预测可执行的人形机器人关节轨迹，改善了语音-动作对齐和物理合理性。

arXiv:2606.19935v1 Announce Type: new 摘要：人形机器人需要的共语动作不仅要富有表现力且与语音对齐，还要在具身约束下具备物理可执行性。现有的共语动作生成管道主要以人为中心：首先在人体表示（如SMPL-X）中生成动作，然后重新定位到人形机器人。在这项工作中，我们识别出该范式中的一个基本具身差距，即人体运动流形与人形机器人具身约束之间的不匹配，这会破坏运动转移和物理执行过程中的具身一致性。通过广泛分析，我们显示，虽然重定位可以保留粗略的运动语义，但它显著压缩了运动多样性并削弱了韵律-动作同步，限制了人形机器人的表达行为。为解决此问题，我们首先提出IK-EER，一个保留韵律的人形机器人动作策划框架，在重定位过程中联合优化运动学可行性和语音-动作时间对齐。基于策划的机器人原生动作数据集，我们进一步引入PhysDrift，一个具身感知的共语动作生成框架，直接从语音预测可执行的人形机器人关节轨迹，无需依赖中间人体表示。与传统的以人为中心的管道不同，PhysDrift在训练和推理过程中都保持具身一致性，同时加入物理正则化以稳定机器人运动动力学。大量实验和真实世界的人形机器人部署表明，具身感知的机器人原生生成显著改善了语音-动作对齐、物理合理性、运动平滑性、推理效率和实时交互能力。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:34

# 弥合人形机器人伴随语音动作生成中的具身鸿沟
来源：https://arxiv.org/html/2606.19935
张昭梁¹，邢晓芬¹¹，杨明月²，周文乐³，徐向民¹³ ¹华南理工大学²德富力科技有限公司³佛山大学 ¹通讯作者

###### 摘要

人形机器人需要生成不仅富有表现力且与语音对齐，还要在具身约束下物理可执行的伴随语音动作。现有的伴随语音生成管线主要采用以人为中心的方式：先在SMPL-X等人体表征中生成动作，再将其重定向到人形机器人上。在这项工作中，我们识别出该范式中存在一个根本性的具身鸿沟：人体动作流形与人形机器人的具身约束之间的不匹配，会在动作迁移和物理执行过程中破坏具身一致性。通过大量分析，我们表明，虽然重定向可以保留粗略的动作语义，但它显著压缩了动作多样性，削弱了韵律与动作的同步性，限制了人形机器人的表现力行为。为了解决这个问题，我们首先提出了IK-EER，一个保留韵律的人形机器人动作筛选框架，该框架在重定向过程中联合优化运动学可行性和语音-动作时间对齐。基于筛选出的机器人原生动作数据集，我们进一步引入了PhysDrift，一个具身感知的伴随语音动作生成框架，它直接从语音预测可执行的人形机器人关节轨迹，无需依赖中间的人体表征。与传统的以人为中心的管线不同，PhysDrift在训练和推理过程中都保持了具身一致性，同时加入了物理正则化以稳定机器人运动动力学。大量的实验和真实人形机器人部署表明，具身感知的机器人原生生成在语音-动作对齐、物理合理性、运动平滑性、推理效率和实时交互能力方面都显著提升。结果进一步揭示，机器人原生的动作表征比以人为中心的中间表征更适合人形机器人的具身伴随语音交互。

参见图说明图1：从人体运动捕捉数据到人形机器人伴随语音动作。整个流程包括四个步骤。首先，过滤掉人体运动中明显违反物理规律或肢体严重扭曲的数据。接下来，提出的IK-EER将人体动作映射到人形机器人上，获得机器人原生运动空间中的伴随语音动作，同时进一步移除与机器人属性不匹配的数据。然后，使用机器人的伴随语音动作训练PhysDrift生成模型。最后，全身控制器以PhysDrift生成的运动为参考，在真实机器人上执行动作。

## I 引言

人形机器人被期望能够与人类进行自然的面对面交互[4,11,9,42,22]，其中语音与富有表现力的身体动作紧密耦合。伴随语音动作在此过程中起着关键作用，通过传达强调、节奏、情绪和对话意图，超越了纯语言内容。生成建模的最新进展显著提高了人类伴随语音动作合成的真实感和多样性[38,13]。这些方法在学习大规模人体运动数据集中的语音-动作对应关系方面展示了令人印象深刻的能力，并在虚拟化身和数字人方面取得了有前景的结果。

尽管取得了这些进展，将伴随语音动作生成从虚拟人迁移到物理人形机器人仍然面临着根本性的挑战。与通用人形机器人的动作类似，现有的管线[47,44]主要采用以人为中心的方式：首先在SMPL-X[36]等人体表征中生成动作，然后通过逆运动学或基于优化的运动迁移将其重定向到人形机器人上。虽然这种方法对动画有效，但它隐含地假设人体运动表征与人形机器人的具身约束兼容。然而，人形机器人在运动学结构、关节限制、驱动能力、平衡约束和可行运动流形方面与人类存在显著差异。因此，在以人为中心的潜在空间中学到的运动表征与人形机器人的物理可执行运动空间并不自然对齐[20]。

在这项工作中，我们识别并形式化了这种差异，将其称为人形机器人伴随语音动作生成中的“具身鸿沟”。与以往主要关注运动重定向精度或运动学可行性的工作不同，我们表明，具身鸿沟更根本地表现为人体动作流形与机器人可执行动作流形之间的分布不匹配。我们的实验揭示，尽管现代重定向方法可以大致保留粗略的动作语义并避免严重的关节违规，但重定向过程显著压缩了动作多样性，削弱了韵律与动作的同步性。因此，在以人为中心的表征中学到的富有表现力的语音驱动动作，在人形机器人重建和物理执行过程中逐渐失真。

一种自然的解决方案是放弃以人为中心的中间表征，直接在机器人关节空间中建模人形机器人的伴随语音行为。然而，机器人原生生成带来了新的挑战。如果没有具身感知约束，高度表达性的生成模型，特别是基于流的模型[32]，很容易产生物理不稳定的运动，具有过度的抖动、接触伪像和关节限制违规，尽管取得了良好的分布度量。因此，有效的人形机器人伴随语音动作生成不仅需要表达性的生成能力，还需要具身一致的物理正则化。

为了应对这些挑战，我们提出了PhysDrift，一个用于人形机器人伴随语音动作生成的具身感知机器人原生框架。PhysDrift不依赖中间的人体表征，而是直接从语音预测可执行的人形机器人关节轨迹。为了构建高质量的机器人原生训练数据，我们进一步提出了逆运动学-能量包络重定向(IK-EER)，一个保留韵律的人形机器人动作筛选框架，在重定向过程中联合优化运动学可行性和语音-动作时间对齐。基于筛选出的数据集，PhysDrift加入了具身感知的正则化，以稳定生成的运动动力学，同时保留语音-动作对齐和实时生成能力。图1(https://arxiv.org/html/2606.19935#S0.F1)提供了本文研究的概述。

在运动质量、物理可行性、语音对齐和部署效率方面的广泛实验表明，具身感知的机器人原生生成显著优于传统的以人为中心的管线。特别是，我们的方法实现了更优的语音-动作同步、更平滑的物理动力学、更快的推理速度以及更稳定的人形机器人执行，同时保持了富有表现力的动作多样性。我们进一步通过真实人形机器人部署验证了所提出的框架，展示了鲁棒的实时伴随语音交互能力。

我们的贡献总结如下：

- • 我们识别并形式化了人形机器人伴随语音动作生成中的具身鸿沟，表明以人为中心的动作表征在重定向和物理执行过程中从根本上破坏了具身一致性。
- • 我们提出了IK-EER，一个保留韵律的人形机器人动作筛选框架，在重定向过程中同时考虑运动学可行性和语音-动作时间对齐。
- • 我们提出了PhysDrift，一个具身感知的机器人原生伴随语音动作生成框架，直接从语音预测可执行的人形机器人关节轨迹，无需依赖中间的人体表征。
- • 我们通过大量实验和人形机器人部署证明，具身感知的生成显著提高了人形机器人伴随语音动作的物理合理性、运动平滑性、语音对齐、推理效率和实时交互能力。

## II 相关工作

在本节中，我们从与人形机器人伴随语音动作生成密切相关的三个角度回顾先前工作：以人为中心的伴随语音生成、人形机器人运动重定向，以及机器人原生的人形机器人运动生成。与传统分类不同，我们特别关注现有方法如何建模运动表征与物理具身之间的关系，这是本文所解决的核心挑战。

### II-A 以人为中心的伴随语音动作生成

伴随语音动作生成的最新进展主要由计算机视觉和图形学社区推动。现有方法通常将任务形式化为以语音信号为条件生成人体运动，其中动作以人体骨骼空间或参数化人体模型（如SMPL-X）表示。大规模对话式运动数据集极大加速了这一研究方向。BEAT[30]和BEAT2[29]提供了多语言对话式运动捕捉数据集，包含同步的语音和身体动作注释。ZeroEGGS[16]进一步贡献了高保真度的表达性说话风格用于手势合成。与此同时，大规模互联网视频数据集如AVSpeech[12]和TED手势数据集[48]使得从无约束的视听数据中可扩展地学习语音驱动手势成为可能。基于这些数据集，最近的生成模型在生成逼真且语义上有意义的人体手势方面取得了显著进展。HOP[6]建模了语音、文本和手势动力学之间的多模态交互。SemGes[31]通过局部-全局约束提高了语义一致性。DIDiffGes[8]引入了一种高效的去耦扩散框架用于手势生成，而MotionCraft[3]采用统一的扩散变换器进行多模态全身运动合成。尽管它们在视觉质量上令人印象深刻，但这些方法从根本上是为数字人而非物理具身的人形机器人设计的。更重要的是，它们学到的运动表征本质上是人为中心的，假设运动流形由人体运动学和形态定义。这类表征没有明确考虑具身特定的约束，包括机器人关节结构、驱动器限制、平衡约束或物理可执行的人形机器人运动空间。因此，将这些生成的动作迁移到人形机器人上不可避免地需要一个额外的具身迁移阶段，引入了人体运动表征与机器人可执行行为之间的不匹配。

### II-B 人形机器人运动重定向

运动重定向旨在将人体运动迁移到人形机器人上，同时保留运动语义和物理可行性。在人形机器人领域，重定向已成为利用大规模人体运动先验来改进机器人运动生成和控制的一种实用策略。传统的人形机器人运动生成方法[23,14,40,24,39]主要依赖于轨迹优化或手动设计的控制器。尽管这些方法实现了稳定的运动控制，但它们往往难以再现富有表现力和具有社会意义的人体运动动态。为了克服这一限制，最近的重定向框架试图将自然人体运动转移到人形机器人上。最近的研究显著提高了重定向后人体运动物理合理性。Jeong等人[19]提出了一种标准化的重定向框架，解决了自碰撞和接触一致性问题。Exbody[7]引入了局部关节映射策略，用于将人体运动迁移到宇树H1人形机器人平台。Lu等人[33]改进了基于逆运动学的上半身重定向方法，以在具身差异下保留自然运动特性。Mao等人[35]进一步展示了将互联网规模的人体运动转换为可执行人形机器人数据集的可扩展重定向管线。然而，现有的重定向方法主要优化空间姿态重建和物理可行性，而对语音驱动交互中的具身一致性关注有限。特别是，伴随语音动作不仅依赖于姿态精度，还依赖于语音韵律与运动动态之间的微妙时间耦合。基于逐帧逆运动学、平滑或投影到可行机器人子空间的重定向过程，往往会扭曲表达性运动分布，削弱韵律-动作同步。因此，重定向后仍保持物理可执行的动作，在人形机器人交互中可能会失去表达多样性和对话自然度。

### II-C 机器人原生人形机器人运动生成

更多近期研究开始探索直接在机器人动作空间中运作的机器人原生人形机器人运动生成框架，而不是完全依赖人体中间表征。这些方法旨在更明确地在生成和控制过程中融入具身约束。一些方法探索了语言条件的人形机器人生成和交互。Harmon[21]结合了人体运动先验与视觉-语言推理，用于全身人形机器人生成。Xu等人[45]在NAO平台上提出了一种文本驱动的人形机器人运动生成框架，使用角度空间表示和强化学习控制器。Bao等人[2]引入了一个分层框架，集成了意图推理和基于扩散的社交手势生成，用于人形机器人交互。同时，在模仿学习和基于扩散策略的人形机器人控制领域也出现了并行进展。Ze等人[50]结合了遥操作和扩散

PhysDrift：弥合人形机器人共语动作生成中的具身差距

相似文章

OmniHumanoid: 流式跨实体视频生成与无需配对自适应

PhyGenHOI: 物理感知的动态人-物交互4D生成

DRIFT: 视觉语言模型中用于连续输出解码的残差流适配器

MotionVLA：用于人形机器人运动的视觉-语言-动作模型

PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励

提交意见反馈