OneHOI:统一人物-物体交互生成与编辑
摘要
OneHOI 是一个统一的扩散 Transformer 框架,通过关系建模和结构化注意力机制将人物-物体交互(HOI)生成和编辑整合为单一的条件去噪过程。该方法在 HOI 生成和编辑两项任务上都达到了最先进的性能,并支持多种控制模式。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - OneHOI:统一的人物-物体交互生成与编辑 源:https://huggingface.co/papers/2604.14062
摘要
一个统一的扩散变换器框架,用于人物-物体交互的生成和编辑,采用关系建模和结构化注意力机制来处理复杂的交互场景。人物-物体交互(HOI)建模捕捉人类如何作用于物体及其相互关系,通常表示为三元组。现有方法分为两个不相交的族群:HOI生成从结构化三元组和布局合成场景,但无法整合混合条件如HOI和仅包含物体的实体;HOI编辑通过文本修改交互,但难以将姿态与物理接触解耦,且难以扩展到多个交互。我们引入OneHOI,一个统一的扩散变换器框架,将HOI生成和编辑整合到单一条件去噪过程中,由共享的结构化交互表示驱动。其核心是关系扩散变换器(R-DiT),它通过角色和实例感知的HOI标记对动词调节的关系进行建模,使用基于布局的空间动作定位、结构化HOI注意力来强制执行交互拓扑,以及HOI RoPE来解耦多HOI场景。在我们的HOI-Edit-44K数据集上联合训练,结合模态丢弃,以及HOI和物体中心数据集,OneHOI支持布局引导、无布局、任意掩码和混合条件控制,在HOI生成和编辑中都达到了最先进的结果。代码可在 https://jiuntian.github.io/OneHOI/ 获取。
在你的智能体中获取此论文:hf papers read 2604.14062
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型
0个
在模型的README.md中引用arxiv.org/abs/2604.14062来从此页面链接它。
引用此论文的数据集
2个
jiuntian/hoiedit44k
查看器 • 更新于3天前 • 38.9k • 1.13k • 2
jiuntian/IEBench
查看器 • 更新于3天前 • 224 • 18
引用此论文的Space
0个
在Space的README.md中引用arxiv.org/abs/2604.14062来从此页面链接它。
包含此论文的合集
0个
将此论文添加到合集来从此页面链接它。
相似文章
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
BasedHardware/omi
Omi 是一个开源的 AI 第二大脑平台,可以捕捉屏幕内容和对话,提供实时转录、总结和跨桌面、移动和可穿戴设备的上下文感知聊天功能。拥有 30 多万用户,完全开源,支持多平台。
HiDream-ai/HiDream-O1-Image
HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。