标签
本文质疑当前的AI基准测试是否足以评估AI在实时、后台环境(如语音通话、自动驾驶和智能眼镜)中的表现,因为这些测试假设用户已做好准备。
一位用户成功将Claude以语音模式集成到Zoom会议中,Claude回答了多位参会者的问题,没有出现任何故障,用户正在寻求这种能力的应用场景。
Meta AI 正在从聊天框演变为随身感知层,新增语音对话、相机实时 AI 功能,并逐步进入眼镜形态,使 AI 能够看见、听见并理解用户眼前的世界。
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
本文重点介绍了“交互模型”,它能够在对话过程中对语音进行实时事实核查,充当一位专注的队友。
文章探讨了 Thoughty Machines 如何在实时 AI 能力领域显著超越或重新定义了 GDM 和 OpenAI 等竞争对手。
有人推测,如果 Claude 5.5 速度提升 20 倍,用户将能够实时对话并编写代码,界面会随着语音输入同步更新。
OpenAI 详细介绍了其重新架构的 WebRTC 技术栈,旨在为超过 9 亿用户提供大规模低延迟语音 AI 服务。文章阐述了全新的 split-relay 和 transceiver 架构如何优化媒体路由与连接建立,以支持 ChatGPT 语音等实时交互场景。