video-to-speech

标签

Cards List
#video-to-speech

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈