我每天开车45分钟去上班,却无法与我的AI代理对话,所以我开发了一款iOS应用,可以在免提情况下与AI代理交谈——内置完整的TTS和STT功能

Reddit r/openclaw 产品

摘要

一位开发者构建了ClawVibe,一款用于免提语音交互的iOS应用,配备设备端语音识别和TTS,实现低延迟。

每天早上我开车45分钟去上班。我使用一个AI代理来规划、管理任务和进行头脑风暴,但在通勤期间完全无法使用它。需要手持手机的方法开车时行不通,网页界面需要点击。于是,我开始为自己构建一些东西。那是两个月前的事了。最终我做出的成果是ClawVibe,一个原生的iOS语音助手,可以与你的AI代理完全免提地对话。 我遇到的问题(以及应用为什么这样运作) 我的第一个版本将语音音频通过移动网络传输到服务器进行转录。理论上可行。实际上,延迟飙升、移动信号不佳导致丢包,整个对话在中间就崩溃了。我意识到核心错误:通过移动连接可靠地传输音频数据量太大。而文本则不然。于是,我将所有处理移至设备端。语音识别在手机上完成。文本转语音也在手机上完成。唯一通过网络传输的是转录文本,只有几个字符。延迟降低了。丢包变得无关紧要。即使在信号极差的区域也能工作。 设备端处理带来了自己的问题。大多数机器学习模型想要使用Apple的Metal框架(GPU加速),速度很快。但Apple不允许Metal进程在后台运行。因此,一旦屏幕关闭,模型就会停止。我不得不切换到不使用GPU加速的标准CoreML,以便在开车时后台运行。这是一个值得做出的权衡。 另一个我反复遇到的问题就是背景噪音。GPS导航指令、附近有人说话、收音机声音。所有这些都被拾取并发送给AI,就好像我说了一样。解决方法是语音生物识别;应用现在学习你的声音配置文件,只发送识别为你的音频。GPS可以播报转弯,AI会忽略它。 我构建的功能: * 设备端语音识别:在手机上转录,从不发送给Apple或Google。只有文本发送给你的AI。 * 设备端TTS:多种语音选项,通过手机或CarPlay扬声器回放。 * 始终开启的语音检测:无需按钮,无需唤醒词。知道你在说话。 * CarPlay:车内完全免提——我开发它的最初原因。 * 主语音识别:可选择仅允许你注册的语音触发AI。忽略背景语音和声音。 * GPS上下文:每条消息附带位置数据,以实现位置感知响应。 目前的状态: 现在处于TestFlight beta阶段,我正在寻找beta测试者。Beta测试和审核通过后,应用将在App Store上免费提供。免费版本提供完整的核心语音体验。即将推出高级版,包含一系列增值功能:更多语音、多个语音配置文件、扩展的CarPlay界面、Apple Watch支持等。 你需要连接你自己的AI后端,它支持几种不同的设置,更多集成正在进行中。如果你已经运行自己的OpenClaw实例,那就没问题。如果你还没有设置自己的AI服务器,你仍然可以使用设备端本地模型试用应用。 如果你对自托管AI、隐私优先的工具感兴趣,或者只是想在车里免提使用AI,我非常期待反馈。什么会让你觉得这个应用有用,或者什么会阻止你使用它?你想把它连接到哪个AI系统?
查看原文

相似文章

我把我的真iPhone交给了我的智能体..

Reddit r/openclaw

一位开发者创建了一种方法,让AI智能体通过API控制真实iPhone,实现起草iMessage、运行iOS快捷指令和移动应用测试等任务。他们提供了70部手机供实验使用。

我做了个 V2 AI 替我回私信,以后再也不用亲自和人聊天了

Reddit r/artificial

做了我的聊天助手的 V2 版本,说实话,开始觉得有点不对劲了。它会读取对话、自动回复、调整语气以免对方失去兴趣。现在还支持:• 边聊边搜 • 识别对方发送的图片 • 转录并回复语音消息 • 根据上下文发 GIF • 记住生日和过往聊天记录 • 忘了回复时自动跟进 • 聊偏了可以手动引导 • 每隔约 25 条消息总结一次上下文。目前已使用约 50 万 token