OneHOI：统一人物-物体交互生成与编辑

Hugging Face Daily Papers 2026/04/15 00:00 论文

摘要

OneHOI 是一个统一的扩散 Transformer 框架，通过关系建模和结构化注意力机制将人物-物体交互（HOI）生成和编辑整合为单一的条件去噪过程。该方法在 HOI 生成和编辑两项任务上都达到了最先进的性能，并支持多种控制模式。

人物-物体交互（HOI）建模捕捉人类如何作用于物体并与之建立联系，通常表现为 <人物, 动作, 物体> 三元组。现有方法分为两个独立的家族：HOI 生成从结构化三元组和布局合成场景，但无法整合 HOI 和仅物体等混合条件；HOI 编辑通过文本修改交互，但难以将姿态与物理接触解耦，并且难以扩展到多个交互。我们引入 OneHOI，一个统一的扩散 Transformer 框架，通过共享的结构化交互表示将 HOI 生成和编辑整合为单一的条件去噪过程。其核心是关系扩散 Transformer（R-DiT），它通过角色和实例感知的 HOI 令牌、基于布局的空间动作定位、用于强制交互拓扑的结构化 HOI 注意力以及用于解耦多 HOI 场景的 HOI RoPE 来建模动词中介的关系。OneHOI 与模态 Dropout 在 HOI-Edit-44K 以及 HOI 和物体中心数据集上联合训练，支持布局引导、无布局、任意掩码和混合条件控制，在 HOI 生成和编辑两方面都达到了最先进的性能。代码可在 https://jiuntian.github.io/OneHOI/ 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - OneHOI：统一的人物-物体交互生成与编辑源：https://huggingface.co/papers/2604.14062

摘要

一个统一的扩散变换器框架，用于人物-物体交互的生成和编辑，采用关系建模和结构化注意力机制来处理复杂的交互场景。人物-物体交互（HOI）建模捕捉人类如何作用于物体及其相互关系，通常表示为三元组。现有方法分为两个不相交的族群：HOI生成从结构化三元组和布局合成场景，但无法整合混合条件如HOI和仅包含物体的实体；HOI编辑通过文本修改交互，但难以将姿态与物理接触解耦，且难以扩展到多个交互。我们引入OneHOI，一个统一的扩散变换器框架，将HOI生成和编辑整合到单一条件去噪过程中，由共享的结构化交互表示驱动。其核心是关系扩散变换器（R-DiT），它通过角色和实例感知的HOI标记对动词调节的关系进行建模，使用基于布局的空间动作定位、结构化HOI注意力来强制执行交互拓扑，以及HOI RoPE来解耦多HOI场景。在我们的HOI-Edit-44K数据集上联合训练，结合模态丢弃，以及HOI和物体中心数据集，OneHOI支持布局引导、无布局、任意掩码和混合条件控制，在HOI生成和编辑中都达到了最先进的结果。代码可在 https://jiuntian.github.io/OneHOI/ 获取。

查看arXiv页面查看PDF 项目页面 GitHub

添加到合集

在你的智能体中获取此论文：hf papers read 2604.14062

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

0个

在模型的README.md中引用arxiv.org/abs/2604.14062来从此页面链接它。

引用此论文的数据集

2个

jiuntian/hoiedit44k

查看器 • 更新于3天前 • 38.9k • 1.13k • 2

jiuntian/IEBench

查看器 • 更新于3天前 • 224 • 18

引用此论文的Space

0个

在Space的README.md中引用arxiv.org/abs/2604.14062来从此页面链接它。

包含此论文的合集

0个

将此论文添加到合集来从此页面链接它。

OneHOI：统一人物-物体交互生成与编辑

论文页面 - OneHOI：统一的人物-物体交互生成与编辑源：https://huggingface.co/papers/2604.14062

摘要

引用此论文的模型

引用此论文的数据集

jiuntian/hoiedit44k

jiuntian/IEBench

引用此论文的Space

包含此论文的合集

相似文章

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

HiVLA: 一种以视觉接地为中心的分层具身操作系统

BasedHardware/omi

HiDream-ai/HiDream-O1-Image

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

提交意见反馈

论文页面 - OneHOI：统一的人物-物体交互生成与编辑 源：https://huggingface.co/papers/2604.14062

摘要

引用此论文的模型

引用此论文的数据集

jiuntian/hoiedit44k

jiuntian/IEBench

引用此论文的Space

包含此论文的合集

相似文章

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

HiVLA: 一种以视觉接地为中心的分层具身操作系统

BasedHardware/omi

HiDream-ai/HiDream-O1-Image

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

提交意见反馈

论文页面 - OneHOI：统一的人物-物体交互生成与编辑源：https://huggingface.co/papers/2604.14062