speech-synthesis

标签

Cards List
#speech-synthesis

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。

0 人收藏 0 人点赞
#speech-synthesis

Qwen3.5-Omni 技术报告

Hugging Face Daily Papers · 2026-04-17 缓存

Qwen3.5-Omni 是一个千亿参数的多模态模型,具备先进的音视频理解与生成能力,引入了新颖的 Audio-Visual Vibe Coding,在215项基准测试中取得SOTA结果,同时与 Gemini-3.1 Pro 持平。

0 人收藏 0 人点赞
#speech-synthesis

@GoogleDeepMind:更自然的语音,支持70+种语言(如印地语、日语、德语),所有输出均带SynthID水印

X AI KOLs · 2026-04-15 缓存

Google DeepMind 升级语音合成模型,在70多种语言中声音更自然,并为所有输出添加 SynthID 水印。

0 人收藏 0 人点赞
#speech-synthesis

连续音频语言模型

Papers with Code Trending · 2025-09-08 缓存

本文介绍了连续音频语言模型(CALM),该模型使用连续帧而非离散token生成音频,以提升语音和音乐生成的保真度并降低计算成本。

0 人收藏 0 人点赞
#speech-synthesis

VibeVoice 技术报告

Papers with Code Trending · 2025-08-26 缓存

VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。

0 人收藏 0 人点赞
#speech-synthesis

使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog · 2025-06-03 缓存

Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈