Hugging Face和Cerebras将Gemma 4引入实时语音AI

Hugging Face Blog 2026/07/01 00:00 产品

real-time voice-ai speech-to-speech open-source inference partnership hugging-face cerebras

摘要

Hugging Face和Cerebras展示了一个实时语音到语音流水线，结合了开源模型（Nvidia的Parakeet、Gemma 4、Qwen3TTS）与Cerebras的快速推理，实现了自然的对话式AI，并为Reachy Mini等机器人提供动力。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/07/01 17:31

Hugging Face 与 Cerebras 携手将 Gemma 4 带入实时语音 AI

来源：https://huggingface.co/blog/cerebras-gemma4-voice-ai 返回文章列表 (https://huggingface.co/blog)

架构：开放、级联的语音到语音栈 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#architecture-an-open-cascaded-speech-to-speech-stack)
Cerebras 与 Hugging Face 合作 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#cerebras-and-hugging-face-partnership)
为真实世界交互而生 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#built-for-real-world-interaction)

对于语音 AI 来说，延迟是一个关键参数。开发者在模型质量上取得了巨大进步，但用户体验仍常受限于响应时间。Hugging Face 和 Cerebras 正在改变这一体验。今天，我们展示了当开放的模块化语音 AI 架构与业界领先的推理速度相结合时，能够实现怎样的效果。

其结果是，语音到语音的体验变得更加自然。对话不再是等待 AI 响应，而是以用户期望的人际交互的响应速度流畅进行。

该演示构建为实时语音到语音管道。系统的每个部分都是模块化、开放且可替换的，使开发者能够轻松地将该栈适配到不同的助手、机器人、产品或研究项目。

这形成了一个完全开放的语音到语音循环：

语音输入 -> 使用 Nvidia 的 Parakeet 进行语音识别 -> 在 Cerebras 上运行 Gemma 4 VLM 推理 -> 使用阿里巴巴的 Qwen3TTS 进行文本到语音转换 -> 语音响应

该架构汇聚了开源 AI 生态系统的优势：Cerebras 提供快速推理，Google DeepMind 的 Gemma 4 31B 作为语言模型，Qwen 负责文本到语音。每一层都可以被开发者检查、修改和扩展。

如今，一些生产系统在中位数延迟上表现尚可，但在 P95 时仍会出现令人沮丧的几秒延迟。当工具调用或多模态步骤需要多轮交互时，这些延迟变得更加明显。

Cerebras 帮助解决了该栈中一个最重要的瓶颈：语言模型的响应时间。通过使推理显著更快、更稳定，Cerebras 让 Hugging Face 管道的其余部分得以大放异彩。

这种稳定性在长尾情况下尤其重要。许多系统能够提供可接受的中位数响应时间，但偶发的慢响应仍会让对话显得不可靠。

同样的 Hugging Face 语音到语音管道已在 Reachy Mini 机器人上运行，目前有超过 9000 台机器人在实际应用。对于机器人、语音助手和具身 AI 来说，响应速度不是锦上添花，而是让交互具有生命力的关键。

因此，使用 Cerebras 的动机不仅仅是降低成本，更是为了低延迟、可预测的性能，以及大规模创建自然实时体验的能力。

这次合作反映了双方的共同信念：AI 的未来将是开放且高性能的。开源模型、开放基础设施和突破性的推理速度共同为下一代对话式 AI 奠定了基石。

我们邀请开发者探索这个演示，尝试代码，并帮助塑造实时语音 AI 的未来。

演示：Hugging Face Space (https://huggingface.co/spaces/smolagents/hf-realtime-voice)

仓库：huggingface/speech-to-speech (https://github.com/huggingface/speech-to-speech)