@Thom_Wolf: 大多数人都应该更新他们对开源语音到语音技术现状的认知。老实说,这有点令人…

X AI KOLs Following 工具

摘要

Thom Wolf 和 Cerebras 发布了一个完全开源、带有模型和代码的实时语音演示,展示了最先进的语音到语音能力。

大多数人都应该更新他们对开源语音到语音技术现状的认知。 老实说,这真的有点令人难以置信。 我们与 @cerebras 合作,构建了一个完全开源、实时语音演示(包含模型和代码),展示了今天可以实现的能力。 演示:https://huggingface.co/spaces/smolagents/hf-realtime-voice… 博客:https://huggingface.co/blog/cerebras-gemma4-voice-ai… 去测试它,复制它,调整它,惊艳你的朋友。 视频是原始录制,无剪辑,无加速,一次性完成。
查看原文
查看缓存全文

缓存时间: 2026/07/03 08:33

大多数人可能应该更新一下他们对开源语音到语音技术现状的认知。

坦白说,这确实令人震惊。

我们与@cerebras合作,构建了一个完全开源、实时的语音演示(模型 + 代码),展示如今能做到的程度。

演示:https://huggingface.co/spaces/smolagents/hf-realtime-voice…

博客:https://huggingface.co/blog/cerebras-gemma4-voice-ai…

去试试吧,复制它,修改它,然后让你的朋友们刮目相看。

视频是原始录制,无剪辑、无加速、一次性完成


HF Realtime Voice - 由 smolagents 创建的 Hugging Face 空间

来源:https://huggingface.co/spaces/smolagents/hf-realtime-voice 正在从 HF Docker 仓库获取元数据…

相似文章

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline

NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。