@Thom_Wolf: 大多数人都应该更新他们对开源语音到语音技术现状的认知。老实说,这有点令人…
摘要
Thom Wolf 和 Cerebras 发布了一个完全开源、带有模型和代码的实时语音演示,展示了最先进的语音到语音能力。
查看缓存全文
缓存时间: 2026/07/03 08:33
大多数人可能应该更新一下他们对开源语音到语音技术现状的认知。
坦白说,这确实令人震惊。
我们与@cerebras合作,构建了一个完全开源、实时的语音演示(模型 + 代码),展示如今能做到的程度。
演示:https://huggingface.co/spaces/smolagents/hf-realtime-voice…
博客:https://huggingface.co/blog/cerebras-gemma4-voice-ai…
去试试吧,复制它,修改它,然后让你的朋友们刮目相看。
视频是原始录制,无剪辑、无加速、一次性完成
HF Realtime Voice - 由 smolagents 创建的 Hugging Face 空间
来源:https://huggingface.co/spaces/smolagents/hf-realtime-voice 正在从 HF Docker 仓库获取元数据…
相似文章
@kwindla:OpenAI 今天发布了一款新的语音到语音模型:gpt-realtime-2 这是首个足够好的语音到语音模型……
OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。
@kwindla: https://x.com/kwindla/status/2062544580105359686
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。
@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…
X-Voice 是一个基于流匹配的多语言文本转语音系统,支持跨30种语言的零样本语音克隆,并提供开源代码、模型及演示。
@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS,性能碾压市面所有模型。我没有任何研究背景。上周我 w…
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。