voice-assistant

#voice-assistant

Amazon 的新 Alexa+ 功能可生成播客剧集

TechCrunch AI ↗ · 2026-05-18 缓存

Amazon 宣布推出名为 Alexa Podcasts 的新 Alexa+ 功能，可利用 AI 生成任意主题的播客剧集，提供自定义时长和语调的选项，由 AI 主播声音进行叙述。

0 人收藏 0 人点赞

#voice-assistant

我每天开车45分钟去上班，却无法与我的AI代理对话，所以我开发了一款iOS应用，可以在免提情况下与AI代理交谈——内置完整的TTS和STT功能

Reddit r/openclaw ↗ · 2026-05-17

一位开发者构建了ClawVibe，一款用于免提语音交互的iOS应用，配备设备端语音识别和TTS，实现低延迟。

0 人收藏 0 人点赞

#voice-assistant

AI felt trapped in a textbox, so I spent the last 14 months trying to give it a body

Reddit r/singularity ↗ · 2026-05-16 缓存

开发者用14个月制作了名为Keito的AI物理原型设备，基于ESP32芯片，实现了语音对话、实时唇同步动画、电容触摸交互、音乐播放、天气查询等功能，旨在将AI从文本框中释放出来。

0 人收藏 0 人点赞

#voice-assistant

@FinanceYF5: Meta AI 正在从“聊天框”变成一个随身感知层。 Alexandr Wang 提到，Muse Spark 更新包括语音对话、相机实时 AI，以及逐步进入眼镜。重点不是多一个语音助手，而是 AI 开始看见、听见、理解你眼前的世界。

X AI KOLs Following ↗ · 2026-05-15 缓存

Meta AI 正在从聊天框演变为随身感知层，新增语音对话、相机实时 AI 功能，并逐步进入眼镜形态，使 AI 能够看见、听见并理解用户眼前的世界。

0 人收藏 0 人点赞

#voice-assistant

MIST：面向智能家居的多模态交互式语音工具调用对话助手

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 MIST，这是一个用于训练多模态语音助手以控制智能家居中物联网（IoT）设备的合成数据集与框架。研究凸显了开放权重模型与闭源权重模型在处理复杂的基于语音的工具调用任务时，存在显著的性能差距。

0 人收藏 0 人点赞

#voice-assistant

为ADHD/执行功能障碍人群打造了一款实用型语音优先AI工具——一键脑内倾倒 → 结构化提醒与任务（并非全自动代理）

Reddit r/AI_Agents ↗ · 2026-05-10

作者介绍了SAVI，一款专为ADHD用户设计的iOS应用。该应用利用Whisper和GPT-4o等设备端AI，将语音“脑内倾倒”内容转化为结构化的任务和提醒。

0 人收藏 0 人点赞

#voice-assistant

构建了一个JARVIS风格的助手：具备唤醒词、视觉模式、本地语音克隆和LLM生成的系统命令

Reddit r/ArtificialInteligence ↗ · 2026-05-08

一位开发者构建了一个名为CYBER的JARVIS风格个人助手，具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令，全部在本地运行，无需云端依赖。

0 人收藏 0 人点赞

#voice-assistant

Cardamom

Product Hunt ↗ · 2026-05-07

Cardamom 是一款人工智能驱动的电话点餐系统，专为外卖密集的餐厅设计。

0 人收藏 0 人点赞

#voice-assistant

Parloa 打造客户愿意对话的服务型智能体

OpenAI Blog ↗ · 2026-05-07 缓存

Parloa 已将其平台升级为基于 GPT-5.4 的 AI Agent 管理平台（AMP），使企业能够零代码设计、模拟和部署语音及文本服务型智能体。

0 人收藏 0 人点赞

#voice-assistant

EchoChain：面向中断场景的全双工状态更新推理基准

arXiv cs.CL ↗ · 2026-04-21 缓存

EchoChain 是一项全新基准测试，旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式（上下文惯性、中断遗忘、目标偏移），结果表明，在当前评估的实时语音模型中，无一系统的通过率突破 50%。

0 人收藏 0 人点赞

#voice-assistant

ARKAD Wallet

Product Hunt ↗ · 2026-04-13

ARKAD Wallet 是一款让用户可以通过语音与财务数据交互，从而提升个人财务管理水平的产品。

0 人收藏 0 人点赞

#voice-assistant

Intelligent Eyewear | I/O 2026 Keynote

YouTube AI Channels ↗ · 2026-05-23 缓存

Google在I/O 2026上发布Android XR智能眼镜生态，首款音频眼镜将于2026年秋季上市，由Gemini驱动，支持免提语音帮助、导航、跨应用操作和实时翻译，并与三星、Gentle Monster、Warby Parker合作。

0 人收藏 0 人点赞

voice-assistant

提交意见反馈