标签
CoInteract 提出端到端 Diffusion Transformer 框架,联合建模 RGB 外观与 HOI 几何,在零推理开销下生成物理合理、手脸稳定的人-物交互视频。
# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
OneHOI 是一个统一的扩散 Transformer 框架,通过关系建模和结构化注意力机制将人物-物体交互(HOI)生成和编辑整合为单一的条件去噪过程。该方法在 HOI 生成和编辑两项任务上都达到了最先进的性能,并支持多种控制模式。
百度发布ERNIE-Image,这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能,在文本渲染、指令跟随和结构化图像生成方面表现出色。
百度发布了ERNIE-Image-Turbo,一个蒸馏文本到图像生成模型,可在8步推理中实现快速生成,同时保持强大的文本渲染、指令遵循和结构化图像生成能力。
Nucleus-Image 是一个开源的文本到图像扩散变换器,拥有 170 亿参数,分布在 64 个路由专家中,每次前向传播仅激活约 20 亿参数。其性能匹配或超越 Qwen-Image 和 Imagen4 等领先模型,同时保持高效率,已发布完整模型权重、训练代码和数据集。