speech-synthesis

标签

Cards List
#speech-synthesis

@LinearUncle: 推荐一家叫模思的中国公司的开源声音克隆仓库: MOSS-TTS 你朗读一段文字,它克隆你的声音,然后就可以用你的声音朗读任意文本,查看帖子详情看我实战如何使用,效果很好,可以以假乱真。 https://github.com/OpenMOS…

X AI KOLs Timeline · 2026-06-19 缓存

MOSS-TTS是模思公司推出的开源声音克隆模型,用户朗读少量文本即可克隆声音,随后可用克隆的声音生成任意语音,效果逼真。

0 人收藏 0 人点赞
#speech-synthesis

基于LLM并行文本生成的低延迟实时音频游戏解说系统

arXiv cs.CL · 2026-06-12 缓存

本文介绍了一种低延迟实时音频游戏解说系统,该系统利用基于LLM的并行文本生成技术,将语句间的静默时间从9.6秒减少到0.3秒,与顺序基线相比显著改善了感知到的说话节奏。

0 人收藏 0 人点赞
#speech-synthesis

在构建 AI 辅导系统时,延迟比模型选择更重要

Reddit r/AI_Agents · 2026-06-04

一位从业者认为,在 AI 辅导系统中,语音启动延迟才是关键因素,而非模型的选择。他建议将语音启动延迟控制在 1 秒以内,并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路,并指出延迟叠加最严重的环节。

0 人收藏 0 人点赞
#speech-synthesis

本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence · 2026-06-04

对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

0 人收藏 0 人点赞
#speech-synthesis

SaySynth: 说话机器的简史

Hacker News Top · 2026-06-01 缓存

从机械到神经AI系统的说话机器发展史的详细概述,并介绍了作者基于macOS文本转语音框架的SaySynth项目背景。

0 人收藏 0 人点赞
#speech-synthesis

SwanVoice: 面向独白和对话的表现力长文本零样本语音合成

Hugging Face Daily Papers · 2026-05-29 缓存

SwanVoice 是一种零样本文本转语音模型,专为富有表现力的长文本独白和对话合成而设计,结合了 VAE、流匹配 DiT 和扩散后训练,在丰富度和层次感得分上均优于现有基线模型。

0 人收藏 0 人点赞
#speech-synthesis

使用发音音素识别评估语音发音合成

arXiv cs.CL · 2026-05-21 缓存

本文提出使用带有发音特征的音素识别来评估语音发音合成,解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明,该方法能够捕捉语音细节并改进评估。

0 人收藏 0 人点赞
#speech-synthesis

@rwayne: 视频翻译这事,这下被牛津博士后一个人干通了。 牛津大学博士后 Kevin Lin 开源 Violin 视频翻译工具,把语音识别、LLM 翻译、语音合成整合成自动化流水线。支持多语言互译、个性化翻译风格、视频对话三合一,可以把学术报告转成儿…

X AI KOLs Timeline · 2026-05-15

牛津大学博士后 Kevin Lin 开源了 Violin 视频翻译工具,将语音识别、LLM 翻译和语音合成整合为自动化流水线,支持多语言互译和个性化风格,并提供 Web、CLI 和 Agent 三种使用方式。

0 人收藏 0 人点赞
#speech-synthesis

DramaBox:基于舞台提示构建的开源权重TTS模型

Reddit r/ArtificialInteligence · 2026-05-14 缓存

DramaBox是一个基于LTX-2.3微调的开源权重TTS模型,利用舞台提示(stage directions)生成富有表现力的语音,并支持通过10秒样本进行可选的语音克隆。

0 人收藏 0 人点赞
#speech-synthesis

@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……

X AI KOLs Following · 2026-05-12

Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。

0 人收藏 0 人点赞
#speech-synthesis

机器人模仿人类语音

Reddit r/singularity · 2026-05-11

本文讨论了一种能够模仿人类语音的机器人,重点介绍了机器语音合成及交互方面的最新进展。

0 人收藏 0 人点赞
#speech-synthesis

分层编解码扩散模型用于视频到语音生成

Hugging Face Daily Papers · 2026-04-17 缓存

# 论文页面 - 分层编解码扩散模型用于视频到语音生成 来源:[https://huggingface.co/papers/2604.15923](https://huggingface.co/papers/2604.15923) ## 摘要 HiCoDiT 利用离散语音 token 的分层结构,从视频中生成语音,通过粗到细的双尺度归一化条件,实现更优的音视对齐。视频到语音(VTS)任务旨在无声视频中合成语音,而无需任何音频信号。

0 人收藏 0 人点赞
#speech-synthesis

Qwen3.5-Omni 技术报告

Hugging Face Daily Papers · 2026-04-17 缓存

Qwen3.5-Omni 是一个千亿参数的多模态模型,具备先进的音视频理解与生成能力,引入了新颖的 Audio-Visual Vibe Coding,在215项基准测试中取得SOTA结果,同时与 Gemini-3.1 Pro 持平。

0 人收藏 0 人点赞
#speech-synthesis

@GoogleDeepMind:更自然的语音,支持70+种语言(如印地语、日语、德语),所有输出均带SynthID水印

X AI KOLs · 2026-04-15 缓存

Google DeepMind 升级语音合成模型,在70多种语言中声音更自然,并为所有输出添加 SynthID 水印。

0 人收藏 0 人点赞
#speech-synthesis

Qwen3-TTS 技术报告

Papers with Code Trending · 2026-01-22 缓存

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

0 人收藏 0 人点赞
#speech-synthesis

连续音频语言模型

Papers with Code Trending · 2025-09-08 缓存

本文介绍了连续音频语言模型(CALM),该模型使用连续帧而非离散token生成音频,以提升语音和音乐生成的保真度并降低计算成本。

0 人收藏 0 人点赞
#speech-synthesis

VibeVoice 技术报告

Papers with Code Trending · 2025-08-26 缓存

VibeVoice 是微软推出的一款新模型,它利用 Next-Token Diffusion(下一令牌扩散)和一种高度高效的连续语音分词器,生成长形式多说话人语音。该模型实现了卓越的保真度和压缩率,支持长达 90 分钟的多说话人音频生成。

0 人收藏 0 人点赞
#speech-synthesis

使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog · 2025-06-03 缓存

Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

0 人收藏 0 人点赞
#speech-synthesis

jamiepine/voicebox

GitHub Trending (daily) · 2026-06-20 缓存

Voicebox 是一个开源的、本地优先的 AI 语音工作室,支持语音克隆、语音生成、听写和 AI 代理集成,提供隐私保护和多引擎 TTS 支持。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈