标签
Amazon 宣布推出名为 Alexa Podcasts 的新 Alexa+ 功能,可利用 AI 生成任意主题的播客剧集,提供自定义时长和语调的选项,由 AI 主播声音进行叙述。
一位开发者构建了ClawVibe,一款用于免提语音交互的iOS应用,配备设备端语音识别和TTS,实现低延迟。
开发者用14个月制作了名为Keito的AI物理原型设备,基于ESP32芯片,实现了语音对话、实时唇同步动画、电容触摸交互、音乐播放、天气查询等功能,旨在将AI从文本框中释放出来。
Meta AI 正在从聊天框演变为随身感知层,新增语音对话、相机实时 AI 功能,并逐步进入眼镜形态,使 AI 能够看见、听见并理解用户眼前的世界。
本文介绍了 MIST,这是一个用于训练多模态语音助手以控制智能家居中物联网(IoT)设备的合成数据集与框架。研究凸显了开放权重模型与闭源权重模型在处理复杂的基于语音的工具调用任务时,存在显著的性能差距。
作者介绍了SAVI,一款专为ADHD用户设计的iOS应用。该应用利用Whisper和GPT-4o等设备端AI,将语音“脑内倾倒”内容转化为结构化的任务和提醒。
一位开发者构建了一个名为CYBER的JARVIS风格个人助手,具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令,全部在本地运行,无需云端依赖。
Parloa 已将其平台升级为基于 GPT-5.4 的 AI Agent 管理平台(AMP),使企业能够零代码设计、模拟和部署语音及文本服务型智能体。
EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。
Google在I/O 2026上发布Android XR智能眼镜生态,首款音频眼镜将于2026年秋季上市,由Gemini驱动,支持免提语音帮助、导航、跨应用操作和实时翻译,并与三星、Gentle Monster、Warby Parker合作。