speech-synthesis

#speech-synthesis

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成来源：[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构，从视频中生成语音，通过粗到细的双尺度归一化条件，实现更优的音视对齐。视频到语音（VTS）任务旨在无声视频中合成语音，而无需任何音频信号。

0 人收藏 0 人点赞

#speech-synthesis

Qwen3.5-Omni 技术报告

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

Qwen3.5-Omni 是一个千亿参数的多模态模型，具备先进的音视频理解与生成能力，引入了新颖的 Audio-Visual Vibe Coding，在215项基准测试中取得SOTA结果，同时与 Gemini-3.1 Pro 持平。

0 人收藏 0 人点赞

#speech-synthesis

@GoogleDeepMind：更自然的语音，支持70+种语言（如印地语、日语、德语），所有输出均带SynthID水印

X AI KOLs ↗ · 2026-04-15 缓存

Google DeepMind 升级语音合成模型，在70多种语言中声音更自然，并为所有输出添加 SynthID 水印。

0 人收藏 0 人点赞

#speech-synthesis

连续音频语言模型

Papers with Code Trending ↗ · 2025-09-08 缓存

本文介绍了连续音频语言模型（CALM），该模型使用连续帧而非离散token生成音频，以提升语音和音乐生成的保真度并降低计算成本。

0 人收藏 0 人点赞

#speech-synthesis

VibeVoice 技术报告

Papers with Code Trending ↗ · 2025-08-26 缓存

VibeVoice 是微软推出的一款新模型，它利用 Next-Token Diffusion（下一令牌扩散）和一种高度高效的连续语音分词器，生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率，支持长达 90 分钟的多说话人音频生成。

0 人收藏 0 人点赞

#speech-synthesis

使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog ↗ · 2025-06-03 缓存

Google 宣布 Gemini 2.5 具备先进的原生音频功能，可实现实时对话型 AI，支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

0 人收藏 0 人点赞

speech-synthesis

分层编解码扩散模型用于视频到语音生成

Qwen3.5-Omni 技术报告

@GoogleDeepMind：更自然的语音，支持70+种语言（如印地语、日语、德语），所有输出均带SynthID水印

连续音频语言模型

VibeVoice 技术报告

使用 Gemini 2.5 进行高级音频对话和生成

提交意见反馈