我每天开车45分钟去上班，却无法与我的AI代理对话，所以我开发了一款iOS应用，可以在免提情况下与AI代理交谈——内置完整的TTS和STT功能

Reddit r/openclaw 2026/05/17 07:38 产品

ios voice-assistant handsfree carplay speech-recognition text-to-speech self-hosted-ai

摘要

一位开发者构建了ClawVibe，一款用于免提语音交互的iOS应用，配备设备端语音识别和TTS，实现低延迟。

每天早上我开车45分钟去上班。我使用一个AI代理来规划、管理任务和进行头脑风暴，但在通勤期间完全无法使用它。需要手持手机的方法开车时行不通，网页界面需要点击。于是，我开始为自己构建一些东西。那是两个月前的事了。最终我做出的成果是ClawVibe，一个原生的iOS语音助手，可以与你的AI代理完全免提地对话。我遇到的问题（以及应用为什么这样运作）我的第一个版本将语音音频通过移动网络传输到服务器进行转录。理论上可行。实际上，延迟飙升、移动信号不佳导致丢包，整个对话在中间就崩溃了。我意识到核心错误：通过移动连接可靠地传输音频数据量太大。而文本则不然。于是，我将所有处理移至设备端。语音识别在手机上完成。文本转语音也在手机上完成。唯一通过网络传输的是转录文本，只有几个字符。延迟降低了。丢包变得无关紧要。即使在信号极差的区域也能工作。设备端处理带来了自己的问题。大多数机器学习模型想要使用Apple的Metal框架（GPU加速），速度很快。但Apple不允许Metal进程在后台运行。因此，一旦屏幕关闭，模型就会停止。我不得不切换到不使用GPU加速的标准CoreML，以便在开车时后台运行。这是一个值得做出的权衡。另一个我反复遇到的问题就是背景噪音。GPS导航指令、附近有人说话、收音机声音。所有这些都被拾取并发送给AI，就好像我说了一样。解决方法是语音生物识别；应用现在学习你的声音配置文件，只发送识别为你的音频。GPS可以播报转弯，AI会忽略它。我构建的功能： * 设备端语音识别：在手机上转录，从不发送给Apple或Google。只有文本发送给你的AI。 * 设备端TTS：多种语音选项，通过手机或CarPlay扬声器回放。 * 始终开启的语音检测：无需按钮，无需唤醒词。知道你在说话。 * CarPlay：车内完全免提——我开发它的最初原因。 * 主语音识别：可选择仅允许你注册的语音触发AI。忽略背景语音和声音。 * GPS上下文：每条消息附带位置数据，以实现位置感知响应。目前的状态：现在处于TestFlight beta阶段，我正在寻找beta测试者。Beta测试和审核通过后，应用将在App Store上免费提供。免费版本提供完整的核心语音体验。即将推出高级版，包含一系列增值功能：更多语音、多个语音配置文件、扩展的CarPlay界面、Apple Watch支持等。你需要连接你自己的AI后端，它支持几种不同的设置，更多集成正在进行中。如果你已经运行自己的OpenClaw实例，那就没问题。如果你还没有设置自己的AI服务器，你仍然可以使用设备端本地模型试用应用。如果你对自托管AI、隐私优先的工具感兴趣，或者只是想在车里免提使用AI，我非常期待反馈。什么会让你觉得这个应用有用，或者什么会阻止你使用它？你想把它连接到哪个AI系统？

查看原文

我每天开车45分钟去上班，却无法与我的AI代理对话，所以我开发了一款iOS应用，可以在免提情况下与AI代理交谈——内置完整的TTS和STT功能

相似文章

Labs AI

我把我的真iPhone交给了我的智能体..

我构建了一个可通过iMessage/SMS直接发短信的AI助手

我打造了OpenClaw语音——专属于你的OpenClaw的专用硬件。

构建一个能打真实电话的AI代理（包含等待音乐、IVR、愤怒的人类）——截至目前我学到的经验

提交意见反馈