在Arduino上使用Magenta Realtime 2实现无限音乐故障
摘要
一位开发者使用ESP32微控制器、MacBook、用于实时音乐生成的Magenta Realtime 2、用于转录的MLX Whisper,以及用于工具调用的Qwen模型,构建了一个本地语音控制的音乐系统,实现了对音乐元素(如流派和乐器)的对话式控制。
我构建了一个本地语音AI实时音乐系统,我的ESP32微控制器通过WebSocket与MacBook通信。该微控制器只是一个基于Arduino的小型设备,带有麦克风和扬声器,而MacBook M4 Pro在本地运行Magenta Realtime 2,并将音频流回设备。有趣的是,它具备自主和对话能力。因此,我可以轻触ESP32,对着它说话,它会使用MLX Whisper转录我所说的内容。然后在检测到VAD后,将转录内容发送给Qwen模型,由该模型决定调用哪个工具,例如添加鼓点、将音乐变为Lo-fi风格、加入爵士比波普、移除吉他,或更改音乐中的乐器。GitHub链接:[https://github.com/akdeb/jambox](https://github.com/akdeb/jambox) Hugging Face链接:[https://huggingface.co/google/magenta-realtime-2](https://huggingface.co/google/magenta-realtime-2)
相似文章
google/magenta-realtime-2
Google DeepMind 发布了 Magenta RealTime 2,这是一个开源音乐生成模型,支持设备端流式处理,可通过文本、音频示例和 MIDI 实现低延迟控制。
突破音乐供应的约束
作者描述了取消音乐订阅,并使用DGX Spark、Plex和Ace-Step 1.5 XL模型构建了一个自托管的AI音乐生成系统,创造了无限的个性化音乐供应。
@HuggingPapers:谷歌刚刚在Hugging Face上发布了Magenta RealTime 2,这是唯一一个用于实时连续音乐生成的开源权重模型……
谷歌在Hugging Face上发布了Magenta RealTime 2,这是一个开源权重模型,可在设备上实现实时连续音乐生成,延迟约200毫秒,并可通过文本、音频或MIDI进行控制。
loopmaster – 实时编程音乐IDE
loopmaster 是一款用于实时编程音乐的IDE,支持实时算法音乐创作。
我们给Reachy Mini装上了实时语音大脑
我们使用GPT Realtime给Reachy Mini机器人装上了实时语音大脑,使其能够通过麦克风听、摄像头看、扬声器说话,并通过动作工具做出物理反应。该项目已在GitHub上开源。