discrete-tokens

#discrete-tokens

TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

TBD-VLA 提出了一种离散的视觉-语言-动作框架，结合了块扩散与自回归生成，以实现高效的时序动作建模和更快的推理速度，在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

0 人收藏 0 人点赞

#discrete-tokens

Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

介绍了Discrete-WAM，一种统一的离散潜在视觉-动作世界策略，通过对齐的离散令牌和共享的离散扩散框架，在自动驾驶中实现组合因果推理和反事实推理。

0 人收藏 0 人点赞

#discrete-tokens

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成来源：[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构，从视频中生成语音，通过粗到细的双尺度归一化条件，实现更优的音视对齐。视频到语音（VTS）任务旨在无声视频中合成语音，而无需任何音频信号。

0 人收藏 0 人点赞

discrete-tokens

TBD-VLA: 时序块扩散视觉语言动作模型

Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

分层编解码扩散模型用于视频到语音生成

提交意见反馈