标签
MaineCoon是一款22B参数的实时文生音频视频模型,在单张H100 GPU上可达47.5 FPS,支持低成本、长时长的流式生成,同步语音与画面,用于实时AI角色。
MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。
Go-with-the-Track 使用点轨迹嵌入与空间感知编码及视频扩散变压器,统一了视频生成中的运动控制与参考图像合成,在单一模型中实现了卓越的运动与参考控制。
介绍TimeMoDE,这是一个将扩散Transformer与混合专家模型相结合的框架,用于在数据稀缺条件下生成逼真的时间序列。该框架通过在多个领域的数据集上进行预训练,并利用领域提示来处理领域特定特征,同时结合扩散时间步信号实现自适应去噪。
PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型,提升机器人操作任务中的多视图三维一致性,在基准测试上达到最优结果。
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型,支持相机导航、场景持久化和跨多个领域的可提示事件,利用 E-PRoPE、因果强制和记忆条件场景持久化等新技术实现可控的长时程生成。
本文提出了一项新任务:参考引导的生成内容超分辨率与精炼(RefGC-SR²),该任务利用频率感知扩散变换器模型,同时恢复高分辨率细节并修正生成伪影。该方法在后处理阶段利用高分辨率参考图像提升AI生成图像的质量。
RepFusion 提出使用多模态大语言模型作为噪声表示编码器,用于文本到图像生成中的扩散变压器,优于传统的去噪方法。
World Tracing 引入了一种生成式像素对齐几何表示,它在预测与观测像素对齐的3D点的同时,补全被遮挡的表面。它使用一个经过像素空间流匹配训练的扩散Transformer,在物体、场景和动态基准测试中的可见表面重建和完整几何生成上取得了强劲性能。
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
Echo-Infinity 提出了一种可学习的演化记忆机制,用于自回归视频生成,以恒定的内存成本实现了实时无限视频生成,并达到了最先进的性能。
WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型,其性能可与潜在空间扩散模型相媲美,同时避免了压缩表示导致的信息损失。
本文证明,文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序,而非完整的上下文嵌入,表明图像模型本身能够解码复杂的语言结构。
SwanSphere 提出了一种统一的流式框架,通过因果自回归扩散变换器和多模态学习策略,从全景视频和文本提示中生成高保真空间音频,在视频到空间音频和文本到空间音频任务中均实现了卓越性能。
SANA-Streaming 利用混合扩散Transformer架构、循环反向正则化以及高效的系统协同设计,在消费级GPU上实现实时高分辨率视频到视频编辑,在单张RTX 5090上达到1280×704分辨率下24 FPS。
StreamChar是一个用于实时生成角色动画音视频的流式框架,利用LLM编排器与联合音视频DiT,结合两阶段蒸馏和记忆机制,以维持长时域一致性和视觉质量。
Prism ML发布Bonsai Image,一个1.21 GB的文本到图像扩散变换器,使用三元权重(1.58-bit)用于NVIDIA GPU,在RTX 3080上4.5秒生成1024²图像,体积远小于FP16。