标签
本文提出了一种基于参考的评估协议,用于评估语音到语音AI系统的韵律和节奏,通过匹配人类对话数据提供可解释的行为合理性检查。
Hugging Face和Cerebras展示了一个实时语音到语音流水线,结合了开源模型(Nvidia的Parakeet、Gemma 4、Qwen3TTS)与Cerebras的快速推理,实现了自然的对话式AI,并为Reachy Mini等机器人提供动力。
本文提出了一种模块化的端到端语音对话系统,适用于低资源的阿尔及利亚方言,集成了ASR、NLU、RAG和TTS,并使用了专用数据集和微调模型。
讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入,寻找现成的低延迟流式音频摄入解决方案。
Gemini 3.5 Live Translate 是一款全新的音频模型,用于实时语音到语音翻译。
Google DeepMind 宣布推出 Live Translate 功能,该功能可实时将语音转换为超过70种语言,同时保留语调、节奏和音高,以实现更自然的对话。
Google 发布了 Gemini 3.5 Live Translate,这是一款音频模型,支持超过 70 种语言的近乎实时的语音到语音翻译,并保留说话者的语调和节奏。该功能正在 Google 产品中逐步推出,包括 Gemini Live API、Google Meet 和 Google Translate。
COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。
OpenAI 发布了一个新的专用模型 gpt-realtime-translate,该模型可接收来自 70 多种输入语言的语音音频,并输出 13 种目标语言的语音,实现实时翻译。
OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。
OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。
OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。
# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更