标签
TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。