diffusion-transformer

#diffusion-transformer

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

CoInteract 提出端到端 Diffusion Transformer 框架，联合建模 RGB 外观与 HOI 几何，在零推理开销下生成物理合理、手脸稳定的人-物交互视频。

0 人收藏 0 人点赞

#diffusion-transformer

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成来源：[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构，从视频中生成语音，通过粗到细的双尺度归一化条件，实现更优的音视对齐。视频到语音（VTS）任务旨在无声视频中合成语音，而无需任何音频信号。

0 人收藏 0 人点赞

#diffusion-transformer

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

HiVLA 提出了一种分层视觉-语言-动作框架，通过使用扩散变换器动作专家将语义规划与运动控制解耦，从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家，在长周期任务和细粒度操作方面尤其优于端到端基线。

0 人收藏 0 人点赞

#diffusion-transformer

OneHOI：统一人物-物体交互生成与编辑

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

OneHOI 是一个统一的扩散 Transformer 框架，通过关系建模和结构化注意力机制将人物-物体交互（HOI）生成和编辑整合为单一的条件去噪过程。该方法在 HOI 生成和编辑两项任务上都达到了最先进的性能，并支持多种控制模式。

0 人收藏 0 人点赞

#diffusion-transformer

baidu/ERNIE-Image

Hugging Face Models Trending ↗ · 2026-04-07 缓存

百度发布ERNIE-Image，这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能，在文本渲染、指令跟随和结构化图像生成方面表现出色。

0 人收藏 0 人点赞

#diffusion-transformer

baidu/ERNIE-Image-Turbo

Hugging Face Models Trending ↗ · 2026-04-02 缓存

百度发布了ERNIE-Image-Turbo，一个蒸馏文本到图像生成模型，可在8步推理中实现快速生成，同时保持强大的文本渲染、指令遵循和结构化图像生成能力。

0 人收藏 0 人点赞

#diffusion-transformer

NucleusAI/Nucleus-Image

Hugging Face Models Trending ↗ · 2026-03-17 缓存

Nucleus-Image 是一个开源的文本到图像扩散变换器，拥有 170 亿参数，分布在 64 个路由专家中，每次前向传播仅激活约 20 亿参数。其性能匹配或超越 Qwen-Image 和 Imagen4 等领先模型，同时保持高效率，已发布完整模型权重、训练代码和数据集。

0 人收藏 0 人点赞

diffusion-transformer

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

分层编解码扩散模型用于视频到语音生成

HiVLA: 一种以视觉接地为中心的分层具身操作系统

OneHOI：统一人物-物体交互生成与编辑

baidu/ERNIE-Image

baidu/ERNIE-Image-Turbo

NucleusAI/Nucleus-Image

提交意见反馈