OneHOI:统一人物-物体交互生成与编辑

Hugging Face Daily Papers 论文

摘要

OneHOI 是一个统一的扩散 Transformer 框架,通过关系建模和结构化注意力机制将人物-物体交互(HOI)生成和编辑整合为单一的条件去噪过程。该方法在 HOI 生成和编辑两项任务上都达到了最先进的性能,并支持多种控制模式。

人物-物体交互(HOI)建模捕捉人类如何作用于物体并与之建立联系,通常表现为 <人物, 动作, 物体> 三元组。现有方法分为两个独立的家族:HOI 生成从结构化三元组和布局合成场景,但无法整合 HOI 和仅物体等混合条件;HOI 编辑通过文本修改交互,但难以将姿态与物理接触解耦,并且难以扩展到多个交互。我们引入 OneHOI,一个统一的扩散 Transformer 框架,通过共享的结构化交互表示将 HOI 生成和编辑整合为单一的条件去噪过程。其核心是关系扩散 Transformer(R-DiT),它通过角色和实例感知的 HOI 令牌、基于布局的空间动作定位、用于强制交互拓扑的结构化 HOI 注意力以及用于解耦多 HOI 场景的 HOI RoPE 来建模动词中介的关系。OneHOI 与模态 Dropout 在 HOI-Edit-44K 以及 HOI 和物体中心数据集上联合训练,支持布局引导、无布局、任意掩码和混合条件控制,在 HOI 生成和编辑两方面都达到了最先进的性能。代码可在 https://jiuntian.github.io/OneHOI/ 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - OneHOI:统一的人物-物体交互生成与编辑 源:https://huggingface.co/papers/2604.14062

摘要

一个统一的扩散变换器框架,用于人物-物体交互的生成和编辑,采用关系建模和结构化注意力机制来处理复杂的交互场景。人物-物体交互(HOI)建模捕捉人类如何作用于物体及其相互关系,通常表示为三元组。现有方法分为两个不相交的族群:HOI生成从结构化三元组和布局合成场景,但无法整合混合条件如HOI和仅包含物体的实体;HOI编辑通过文本修改交互,但难以将姿态与物理接触解耦,且难以扩展到多个交互。我们引入OneHOI,一个统一的扩散变换器框架,将HOI生成和编辑整合到单一条件去噪过程中,由共享的结构化交互表示驱动。其核心是关系扩散变换器(R-DiT),它通过角色和实例感知的HOI标记对动词调节的关系进行建模,使用基于布局的空间动作定位、结构化HOI注意力来强制执行交互拓扑,以及HOI RoPE来解耦多HOI场景。在我们的HOI-Edit-44K数据集上联合训练,结合模态丢弃,以及HOI和物体中心数据集,OneHOI支持布局引导、无布局、任意掩码和混合条件控制,在HOI生成和编辑中都达到了最先进的结果。代码可在 https://jiuntian.github.io/OneHOI/ 获取。

查看arXiv页面 查看PDF 项目页面 GitHub

添加到合集

在你的智能体中获取此论文:hf papers read 2604.14062

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

0个

在模型的README.md中引用arxiv.org/abs/2604.14062来从此页面链接它。

引用此论文的数据集

2个

jiuntian/hoiedit44k

查看器 • 更新于3天前 • 38.9k • 1.13k • 2

jiuntian/IEBench

查看器 • 更新于3天前 • 224 • 18

引用此论文的Space

0个

在Space的README.md中引用arxiv.org/abs/2604.14062来从此页面链接它。

包含此论文的合集

0个

将此论文添加到合集来从此页面链接它。

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

BasedHardware/omi

GitHub Trending (daily)

Omi 是一个开源的 AI 第二大脑平台,可以捕捉屏幕内容和对话,提供实时转录、总结和跨桌面、移动和可穿戴设备的上下文感知聊天功能。拥有 30 多万用户,完全开源,支持多平台。

HiDream-ai/HiDream-O1-Image

Hugging Face Models Trending

HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。