video-to-speech

#video-to-speech

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成来源：[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构，从视频中生成语音，通过粗到细的双尺度归一化条件，实现更优的音视对齐。视频到语音（VTS）任务旨在无声视频中合成语音，而无需任何音频信号。

0 人收藏 0 人点赞

video-to-speech

分层编解码扩散模型用于视频到语音生成

提交意见反馈