Hugging Face和Cerebras将Gemma 4引入实时语音AI

Hugging Face Blog 产品

摘要

Hugging Face和Cerebras展示了一个实时语音到语音流水线,结合了开源模型(Nvidia的Parakeet、Gemma 4、Qwen3TTS)与Cerebras的快速推理,实现了自然的对话式AI,并为Reachy Mini等机器人提供动力。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/07/01 17:31

Hugging Face 与 Cerebras 携手将 Gemma 4 带入实时语音 AI

来源:https://huggingface.co/blog/cerebras-gemma4-voice-ai 返回文章列表 (https://huggingface.co/blog)

  • 架构:开放、级联的语音到语音栈 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#architecture-an-open-cascaded-speech-to-speech-stack)
  • Cerebras 与 Hugging Face 合作 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#cerebras-and-hugging-face-partnership)
  • 为真实世界交互而生 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#built-for-real-world-interaction)

对于语音 AI 来说,延迟是一个关键参数。开发者在模型质量上取得了巨大进步,但用户体验仍常受限于响应时间。Hugging Face 和 Cerebras 正在改变这一体验。今天,我们展示了当开放的模块化语音 AI 架构与业界领先的推理速度相结合时,能够实现怎样的效果。

其结果是,语音到语音的体验变得更加自然。对话不再是等待 AI 响应,而是以用户期望的人际交互的响应速度流畅进行。

https://huggingface.co/blog/cerebras-gemma4-voice-ai#architecture-an-open-cascaded-speech-to-speech-stack架构:开放、级联的语音到语音栈

该演示构建为实时语音到语音管道。系统的每个部分都是模块化、开放且可替换的,使开发者能够轻松地将该栈适配到不同的助手、机器人、产品或研究项目。

这形成了一个完全开放的语音到语音循环:

语音输入 -> 使用 Nvidia 的 Parakeet 进行语音识别 -> 在 Cerebras 上运行 Gemma 4 VLM 推理 -> 使用阿里巴巴的 Qwen3TTS 进行文本到语音转换 -> 语音响应

该架构汇聚了开源 AI 生态系统的优势:Cerebras 提供快速推理,Google DeepMind 的 Gemma 4 31B 作为语言模型,Qwen 负责文本到语音。每一层都可以被开发者检查、修改和扩展。

https://huggingface.co/blog/cerebras-gemma4-voice-ai#cerebras-and-hugging-face-partnershipCerebras 与 Hugging Face 合作

如今,一些生产系统在中位数延迟上表现尚可,但在 P95 时仍会出现令人沮丧的几秒延迟。当工具调用或多模态步骤需要多轮交互时,这些延迟变得更加明显。

Cerebras 帮助解决了该栈中一个最重要的瓶颈:语言模型的响应时间。通过使推理显著更快、更稳定,Cerebras 让 Hugging Face 管道的其余部分得以大放异彩。

这种稳定性在长尾情况下尤其重要。许多系统能够提供可接受的中位数响应时间,但偶发的慢响应仍会让对话显得不可靠。

https://huggingface.co/blog/cerebras-gemma4-voice-ai#built-for-real-world-interaction为真实世界交互而生

同样的 Hugging Face 语音到语音管道已在 Reachy Mini 机器人上运行,目前有超过 9000 台机器人在实际应用。对于机器人、语音助手和具身 AI 来说,响应速度不是锦上添花,而是让交互具有生命力的关键。

因此,使用 Cerebras 的动机不仅仅是降低成本,更是为了低延迟、可预测的性能,以及大规模创建自然实时体验的能力。

这次合作反映了双方的共同信念:AI 的未来将是开放且高性能的。开源模型、开放基础设施和突破性的推理速度共同为下一代对话式 AI 奠定了基石。

我们邀请开发者探索这个演示,尝试代码,并帮助塑造实时语音 AI 的未来。

演示:Hugging Face Space (https://huggingface.co/spaces/smolagents/hf-realtime-voice)

仓库:huggingface/speech-to-speech (https://github.com/huggingface/speech-to-speech)

相似文章

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

Hugging Face Blog

NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。

我们给Reachy Mini装上了实时语音大脑

Reddit r/LocalLLaMA

我们使用GPT Realtime给Reachy Mini机器人装上了实时语音大脑,使其能够通过麦克风听、摄像头看、扬声器说话,并通过动作工具做出物理反应。该项目已在GitHub上开源。