为Windows打造了一款本地语音AI,支持任意语言对话。开源,自带密钥。
摘要
Shadow AI 是一款开源的、以语音为先的 Windows AI 伴侣,支持多语言对话、网页搜索、记忆和提醒功能,基于 Gemini API。它本地运行,需要个人 API 密钥。
我一直断断续续地做着这个项目,现在终于到了一个不至于不好意思分享的程度,所以就来发帖了。它叫 Shadow AI。基本上就是一个以语音为先的 AI 伴侣,运行在你自己的 Windows 机器上。你直接跟它说话,它就会回答,完全不需要打字。我做这个主要是因为厌倦了每次想问点什么或者快速完成一个任务时,都要打开聊天窗口然后敲键盘。它能做的事:
- 真正的语音对话,不是那种别扭的按着说话。直接说就行。
- 可以用任何语言跟它交流。哪怕在句子中间切换语言也没问题,它能跟上。说实话这个效果比我想象的好太多。
- 内置网页搜索。它运行自己本地的 SearXNG 实例,所以你的搜索不会经过任何第三方,而且不需要 Docker 配置之类的麻烦事,安装完就能用。
- 它会记住东西。它会跨会话积累你告诉它的事情,这样你就不用每次重新介绍自己。
- 提醒/定时任务。告诉它以后提醒你某件事,它真的会做到。
- 可选的 Google 集成:Gmail、日历、Drive、文档、表格、联系人。完全可选,不碰这些功能应用也能正常工作。应用内有小指南引导你连接自己的 Google 账号,所有数据都不会经过我或任何服务器。
- 它能根据你的使用方式逐步学习一些小的技能。
坦诚说几点:它只支持 Windows。这不是“暂时”的问题,这就是我开发的平台和我使用的环境,所以别期待会有 Mac/Linux 版本。需要自带密钥。安装时粘贴你自己的免费 Gemini API 密钥就行。无论对我还是对你都零成本(免费版足够正常使用),而且你的密钥只保留在本地机器上。它是开源的(AGPL-3.0),整个程序在 [127.0.0.1](http://127.0.0.1) 本地运行,不会向外传输任何数据。如果你想看代码或检查它在做什么,全都一目了然。最接近的比较是“想象一下 OpenClaw,但只有语音”,这样你心里有个大概画面。特此声明这是一个独立项目,与 OpenClaw 没有任何关联或认可,“OpenClaw”是其各自所有者的商标。我只是拿它做个参考。这是个个人项目,欢迎提 issue,但我不能保证都能解决;而且我不太接受 pull request,我更希望按照自己的方式来开发。提前说清楚。很乐意回答大家的问题。真心想听听大家的想法。
[https://github.com/shadowdoggie/shadow-ai](https://github.com/shadowdoggie/shadow-ai)
编辑:我道歉,我搞了个大乌龙,现在意识到了。帖子标题写了“本地”,但截至目前还没有可用的本地模型,我对此深感抱歉,大家把我的评论踩到底也是应该的。我保证会弥补大家,已经在 GitHub 仓库的路线图上添加了该项,即使这篇帖子因为违反规则被删除,我也会确保应用程序一定会支持本地模型,无论是语音还是子代理功能。再次诚恳道歉。
相似文章
构建了一个JARVIS风格的助手:具备唤醒词、视觉模式、本地语音克隆和LLM生成的系统命令
一位开发者构建了一个名为CYBER的JARVIS风格个人助手,具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令,全部在本地运行,无需云端依赖。
使用 Gemini 2.5 进行高级音频对话和生成
Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。
Shadow
Shadow是一款AI驱动的工具,可以实现电脑屏幕和语音控制,并具备自定义自动化功能。
@uniswap12: 微软开源了一个语音 AI,60 分钟长音频一次转写,4 个人同时说话都能搞定 VibeVoice,微软开源,24.8k star,今天才知道这个。录音一键转文字这件事,我之前一直用 Whisper,但它处理长会议录音经常超时,多人说话识别…
微软开源了语音AI框架VibeVoice,支持60分钟长音频一次性转写、多说话人分离和时间戳标注,同时提供多角色TTS合成能力,底层基于Qwen2.5并配有0.5B轻量实时版本,已在GitHub获得24.8k星标。
我开发了一款开源桌面应用,让你的AI跨所有平台拥有持久记忆(100%本地SQLite,零Docker)
ArcRift是一款开源桌面应用和Chrome扩展,通过本地SQLite数据库和Ollama,为跨平台(如Claude和ChatGPT)的AI聊天提供持久化的本地记忆,解决了AI健忘症的问题。