Hugging Face和Cerebras将Gemma 4引入实时语音AI
摘要
Hugging Face和Cerebras展示了一个实时语音到语音流水线,结合了开源模型(Nvidia的Parakeet、Gemma 4、Qwen3TTS)与Cerebras的快速推理,实现了自然的对话式AI,并为Reachy Mini等机器人提供动力。
查看缓存全文
缓存时间: 2026/07/01 17:31
Hugging Face 与 Cerebras 携手将 Gemma 4 带入实时语音 AI
来源:https://huggingface.co/blog/cerebras-gemma4-voice-ai 返回文章列表 (https://huggingface.co/blog)
- 架构:开放、级联的语音到语音栈 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#architecture-an-open-cascaded-speech-to-speech-stack)
- Cerebras 与 Hugging Face 合作 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#cerebras-and-hugging-face-partnership)
- 为真实世界交互而生 (https://huggingface.co/blog/cerebras-gemma4-voice-ai#built-for-real-world-interaction)
对于语音 AI 来说,延迟是一个关键参数。开发者在模型质量上取得了巨大进步,但用户体验仍常受限于响应时间。Hugging Face 和 Cerebras 正在改变这一体验。今天,我们展示了当开放的模块化语音 AI 架构与业界领先的推理速度相结合时,能够实现怎样的效果。
其结果是,语音到语音的体验变得更加自然。对话不再是等待 AI 响应,而是以用户期望的人际交互的响应速度流畅进行。
https://huggingface.co/blog/cerebras-gemma4-voice-ai#architecture-an-open-cascaded-speech-to-speech-stack架构:开放、级联的语音到语音栈
该演示构建为实时语音到语音管道。系统的每个部分都是模块化、开放且可替换的,使开发者能够轻松地将该栈适配到不同的助手、机器人、产品或研究项目。
这形成了一个完全开放的语音到语音循环:
语音输入 -> 使用 Nvidia 的 Parakeet 进行语音识别 -> 在 Cerebras 上运行 Gemma 4 VLM 推理 -> 使用阿里巴巴的 Qwen3TTS 进行文本到语音转换 -> 语音响应
该架构汇聚了开源 AI 生态系统的优势:Cerebras 提供快速推理,Google DeepMind 的 Gemma 4 31B 作为语言模型,Qwen 负责文本到语音。每一层都可以被开发者检查、修改和扩展。
https://huggingface.co/blog/cerebras-gemma4-voice-ai#cerebras-and-hugging-face-partnershipCerebras 与 Hugging Face 合作
如今,一些生产系统在中位数延迟上表现尚可,但在 P95 时仍会出现令人沮丧的几秒延迟。当工具调用或多模态步骤需要多轮交互时,这些延迟变得更加明显。
Cerebras 帮助解决了该栈中一个最重要的瓶颈:语言模型的响应时间。通过使推理显著更快、更稳定,Cerebras 让 Hugging Face 管道的其余部分得以大放异彩。
这种稳定性在长尾情况下尤其重要。许多系统能够提供可接受的中位数响应时间,但偶发的慢响应仍会让对话显得不可靠。
https://huggingface.co/blog/cerebras-gemma4-voice-ai#built-for-real-world-interaction为真实世界交互而生
同样的 Hugging Face 语音到语音管道已在 Reachy Mini 机器人上运行,目前有超过 9000 台机器人在实际应用。对于机器人、语音助手和具身 AI 来说,响应速度不是锦上添花,而是让交互具有生命力的关键。
因此,使用 Cerebras 的动机不仅仅是降低成本,更是为了低延迟、可预测的性能,以及大规模创建自然实时体验的能力。
这次合作反映了双方的共同信念:AI 的未来将是开放且高性能的。开源模型、开放基础设施和突破性的推理速度共同为下一代对话式 AI 奠定了基石。
我们邀请开发者探索这个演示,尝试代码,并帮助塑造实时语音 AI 的未来。
演示:Hugging Face Space (https://huggingface.co/spaces/smolagents/hf-realtime-voice)
仓库:huggingface/speech-to-speech (https://github.com/huggingface/speech-to-speech)
相似文章
Cerebras上的gemma-4-31B比ChatGPT语音模式更好
声称在Cerebras硬件上运行的Gemma-4-31B模型性能优于ChatGPT的语音模式,并通过Hugging Face Space展示了实时语音交互。
Gemma 4 发布:前沿多模态智能,端侧可用
Google DeepMind 发布 Gemma 4,这是一系列前沿多模态模型,已在 Hugging Face 上以 Apache 2 协议开源,针对端侧部署进行了优化,并支持多种推理框架。
Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示
NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。
我们给Reachy Mini装上了实时语音大脑
我们使用GPT Realtime给Reachy Mini机器人装上了实时语音大脑,使其能够通过麦克风听、摄像头看、扬声器说话,并通过动作工具做出物理反应。该项目已在GitHub上开源。
推出 Gemma 4 12B:一个统一的、无编码器的多模态模型
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。