discrete-tokens

标签

Cards List
#discrete-tokens

TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers · 2026-06-05 缓存

TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

0 人收藏 0 人点赞
#discrete-tokens

Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑

Hugging Face Daily Papers · 2026-06-04 缓存

介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。

0 人收藏 0 人点赞
#discrete-tokens

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈