我们给Reachy Mini装上了实时语音大脑

Reddit r/LocalLLaMA 工具

摘要

我们使用GPT Realtime给Reachy Mini机器人装上了实时语音大脑,使其能够通过麦克风听、摄像头看、扬声器说话,并通过动作工具做出物理反应。该项目已在GitHub上开源。

前几天我们参加了一个活动,发现这个小家伙躺在我们的桌子上,是一个来自Hugging Face的Reachy Mini。它是活动组织者女儿的。我们好奇它是怎么工作的,一小时后我们就给它装上了大脑。这个模型基本上变成了Reachy。它通过麦克风听,通过摄像头看,通过扬声器说话,并在说话时调用动作工具做出物理反应。仓库:[https://github.com/opper-ai/reachy-voice-realtime](https://github.com/opper-ai/reachy-voice-realtime) 关键点:* Web UI 可以实时查看摄像头画面、对话记录和工具调用。* 模型在对话中可调用19个动作与感知工具(表情、头部/触角/身体运动、摄像头、声音方向)。* 模仿你,挥手它就挥手,点头它就点头,歪头它就歪头。* 运行在GPT Realtime 2上,通过Opper路由,因此模型只需一行代码即可切换。* 实时客户端和工具层是分离的,因此你也可以直接连接到提供商或本地/开源实时模型。设置方法见README(Python 3.12+),MIT许可。我们把它还给了他的女儿,现在她终于可以和她的机器人对话了。
查看原文

相似文章

推出 gpt-realtime 和实时 API 更新

OpenAI Blog

# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更