diffusion-transformer

#diffusion-transformer

@rohanpaul_ai: AI视频正进入实时互动时代，MaineCoon如今在低延迟AI视频领域领先。@catnips_ai刚刚…

X AI KOLs Following ↗ · 昨天缓存

MaineCoon是一款22B参数的实时文生音频视频模型，在单张H100 GPU上可达47.5 FPS，支持低成本、长时长的流式生成，同步语音与画面，用于实时AI角色。

0 人收藏 0 人点赞

#diffusion-transformer

MeshFlow: 基于等变流匹配的网格生成

Hugging Face Daily Papers ↗ · 3天前缓存

MeshFlow 引入了一种等变最优传输流匹配模型，用于直接生成三角形网格，在达到最先进质量的同时，相比自回归方法提供了约18倍的推理加速。

0 人收藏 0 人点赞

#diffusion-transformer

Go-with-the-Track: 基于点追踪的视频合成与运动控制

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

Go-with-the-Track 使用点轨迹嵌入与空间感知编码及视频扩散变压器，统一了视频生成中的运动控制与参考图像合成，在单一模型中实现了卓越的运动与参考控制。

0 人收藏 0 人点赞

#diffusion-transformer

面向数据稀缺时间序列的统一生成模型：结合领域专家

arXiv cs.LG ↗ · 2026-06-16 缓存

介绍TimeMoDE，这是一个将扩散Transformer与混合专家模型相结合的框架，用于在数据稀缺条件下生成逼真的时间序列。该框架通过在多个领域的数据集上进行预训练，并利用领域提示来处理领域特定特征，同时结合扩散时间步信号实现自适应去噪。

0 人收藏 0 人点赞

#diffusion-transformer

PAIWorld: 面向机器人操作的三维一致世界基础模型

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型，提升机器人操作任务中的多视图三维一致性，在基准测试上达到最优结果。

0 人收藏 0 人点赞

#diffusion-transformer

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

UniDDT提出了一种解耦扩散变换器框架，通过利用Noisy ViT编码器和LLM进行语义编码，统一了多模态理解与生成，在两个任务上均取得了强劲性能。

0 人收藏 0 人点赞

#diffusion-transformer

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

Qwen-RobotWorld是一个语言条件视频世界模型，利用双流扩散变换器和860万视频-文本语料库，预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模，在EWMBench和DreamGen Bench上取得了顶尖基准成绩。

0 人收藏 0 人点赞

#diffusion-transformer

DreamX-World 1.0: 通用交互式世界模型

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型，支持相机导航、场景持久化和跨多个领域的可提示事件，利用 E-PRoPE、因果强制和记忆条件场景持久化等新技术实现可控的长时程生成。

0 人收藏 0 人点赞

#diffusion-transformer

RefGC-SR^2：参考引导的生成内容超分辨率与精炼

Hugging Face Daily Papers ↗ · 2026-06-13 缓存

本文提出了一项新任务：参考引导的生成内容超分辨率与精炼（RefGC-SR²），该任务利用频率感知扩散变换器模型，同时恢复高分辨率细节并修正生成伪影。该方法在后处理阶段利用高分辨率参考图像提升AI生成图像的质量。

0 人收藏 0 人点赞

#diffusion-transformer

RepFusion：利用多模态先验进行表示空间中的去噪

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

RepFusion 提出使用多模态大语言模型作为噪声表示编码器，用于文本到图像生成中的扩散变压器，优于传统的去噪方法。

0 人收藏 0 人点赞

#diffusion-transformer

World Tracing：超越可见的生成式像素对齐几何

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

World Tracing 引入了一种生成式像素对齐几何表示，它在预测与观测像素对齐的3D点的同时，补全被遮挡的表面。它使用一个经过像素空间流匹配训练的扩散Transformer，在物体、场景和动态基准测试中的可见表面重建和完整几何生成上取得了强劲性能。

0 人收藏 0 人点赞

#diffusion-transformer

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

AHA-WAM是一种异步世界动作模型，采用双扩散Transformer将世界预测与动作执行解耦，实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能，在RoboTwin上成功率达92.8%，在现实世界任务中达78.3%，同时实现了24.17 Hz的闭环控制。

0 人收藏 0 人点赞

#diffusion-transformer

LoomVideo：统一多模态输入的视频生成与编辑

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑，通过新颖的条件机制和多模态对齐减少计算开销，实现了具有竞争力的性能和更快的推理速度。

0 人收藏 0 人点赞

#diffusion-transformer

Echo-Infinity: 学习演化记忆用于实时无限视频生成

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

Echo-Infinity 提出了一种可学习的演化记忆机制，用于自回归视频生成，以恒定的内存成本实现了实时无限视频生成，并达到了最先进的性能。

0 人收藏 0 人点赞

#diffusion-transformer

WavTTS: 通过直接原始波形建模实现高质量零样本TTS

Papers with Code Trending ↗ · 2026-06-02 缓存

WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型，其性能可与潜在空间扩散模型相媲美，同时避免了压缩表示导致的信息损失。

0 人收藏 0 人点赞

#diffusion-transformer

文本到图像模型对文本编码器的依赖比你想象的要少

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文证明，文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序，而非完整的上下文嵌入，表明图像模型本身能够解码复杂的语言结构。

0 人收藏 0 人点赞

#diffusion-transformer

基于自回归扩散变换器的流式同步空间音频生成

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

SwanSphere 提出了一种统一的流式框架，通过因果自回归扩散变换器和多模态学习策略，从全景视频和文本提示中生成高保真空间音频，在视频到空间音频和文本到空间音频任务中均实现了卓越性能。

0 人收藏 0 人点赞

#diffusion-transformer

SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

SANA-Streaming 利用混合扩散Transformer架构、循环反向正则化以及高效的系统协同设计，在消费级GPU上实现实时高分辨率视频到视频编辑，在单张RTX 5090上达到1280×704分辨率下24 FPS。

0 人收藏 0 人点赞

#diffusion-transformer

StreamChar: 基于解耦编排的长时域流式角色音视频生成

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

StreamChar是一个用于实时生成角色动画音视频的流式框架，利用LLM编排器与联合音视频DiT，结合两阶段蒸馏和记忆机制，以维持长时域一致性和视觉质量。

0 人收藏 0 人点赞

#diffusion-transformer

prism-ml/bonsai-image-ternary-4B-gemlite-2bit

Hugging Face Models Trending ↗ · 2026-05-21 缓存

Prism ML发布Bonsai Image，一个1.21 GB的文本到图像扩散变换器，使用三元权重（1.58-bit）用于NVIDIA GPU，在RTX 3080上4.5秒生成1024²图像，体积远小于FP16。

0 人收藏 0 人点赞

diffusion-transformer

提交意见反馈