标签
本文介绍了 MIST,这是一个用于训练多模态语音助手以控制智能家居中物联网(IoT)设备的合成数据集与框架。研究凸显了开放权重模型与闭源权重模型在处理复杂的基于语音的工具调用任务时,存在显著的性能差距。
作者介绍了SAVI,一款专为ADHD用户设计的iOS应用。该应用利用Whisper和GPT-4o等设备端AI,将语音“脑内倾倒”内容转化为结构化的任务和提醒。
一位开发者构建了一个名为CYBER的JARVIS风格个人助手,具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令,全部在本地运行,无需云端依赖。
Parloa 已将其平台升级为基于 GPT-5.4 的 AI Agent 管理平台(AMP),使企业能够零代码设计、模拟和部署语音及文本服务型智能体。
EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。