speech-to-speech

#speech-to-speech

基于参考的口语对话系统韵律与节奏评估

arXiv cs.CL ↗ · 2天前缓存

本文提出了一种基于参考的评估协议，用于评估语音到语音AI系统的韵律和节奏，通过匹配人类对话数据提供可解释的行为合理性检查。

0 人收藏 0 人点赞

#speech-to-speech

Hugging Face和Cerebras将Gemma 4引入实时语音AI

Hugging Face Blog ↗ · 2天前缓存

Hugging Face和Cerebras展示了一个实时语音到语音流水线，结合了开源模型（Nvidia的Parakeet、Gemma 4、Qwen3TTS）与Cerebras的快速推理，实现了自然的对话式AI，并为Reachy Mini等机器人提供动力。

0 人收藏 0 人点赞

#speech-to-speech

Dziri Voicebot：面向阿尔及利亚方言的端到端低资源语音对话系统

arXiv cs.CL ↗ · 2026-06-25 缓存

本文提出了一种模块化的端到端语音对话系统，适用于低资源的阿尔及利亚方言，集成了ASR、NLU、RAG和TTS，并使用了专用数据集和微调模型。

0 人收藏 0 人点赞

#speech-to-speech

Gemma 4 12B 原生无编码器语音输入利用建议？

Reddit r/LocalLLaMA ↗ · 2026-06-14

讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入，寻找现成的低延迟流式音频摄入解决方案。

0 人收藏 0 人点赞

#speech-to-speech

Gemini 3.5 Live Translate

Product Hunt ↗ · 2026-06-09

Gemini 3.5 Live Translate 是一款全新的音频模型，用于实时语音到语音翻译。

0 人收藏 0 人点赞

#speech-to-speech

@GoogleDeepMind: 3.5 Live Translate 可以将语音转换为超过70种语言，并在流式传输时进行处理——同时保留语调、节奏…

X AI KOLs ↗ · 2026-06-09 缓存

Google DeepMind 宣布推出 Live Translate 功能，该功能可实时将语音转换为超过70种语言，同时保留语调、节奏和音高，以实现更自然的对话。

0 人收藏 0 人点赞

#speech-to-speech

借助 Gemini 3.5 Live Translate 实现流畅自然的语音翻译

Google DeepMind Blog ↗ · 2026-06-09 缓存

Google 发布了 Gemini 3.5 Live Translate，这是一款音频模型，支持超过 70 种语言的近乎实时的语音到语音翻译，并保留说话者的语调和节奏。该功能正在 Google 产品中逐步推出，包括 Gemini Live API、Google Meet 和 Google Translate。

0 人收藏 0 人点赞

#speech-to-speech

语音到语音翻译模型基准测试

arXiv cs.CL ↗ · 2026-06-03 缓存

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架，它整合了八个维度的46个指标，并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势，并提出了精简的指标子集，在保持排名的同时减少了评估时间。

0 人收藏 0 人点赞

#speech-to-speech

@gdb: OpenAI 实时翻译 — 支持 70 多种输入语言，并翻译成 13 种输出语言：

X AI KOLs Following ↗ · 2026-05-29 缓存

OpenAI 发布了一个新的专用模型 gpt-realtime-translate，该模型可接收来自 70 多种输入语言的语音音频，并输出 13 种目标语言的语音，实现实时翻译。

0 人收藏 0 人点赞

#speech-to-speech

OpenSTBench：超越语义评估的语音翻译

Hugging Face Daily Papers ↗ · 2026-05-29

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架，能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟，涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白，并为比较异构语音翻译系统提供了一个可复现的基准。

0 人收藏 0 人点赞

#speech-to-speech

构建实时语音翻译应用（阅读时长：28 分钟）

TLDR AI ↗ · 2026-05-11 缓存

OpenAI 发布了 gpt-realtime-translate，这是一款专为实时口译优化的低延迟语音转语音模型，并附有开发者实战指南，用于构建支持多语言的浏览器、移动及视频应用。

0 人收藏 0 人点赞

#speech-to-speech

@paulabartabajo_：给AI工程师的建议如果你正在构建语音智能体，别再连接3个独立模型了，用于音频转文本、文本转音频，或文本转文本……

X AI KOLs Timeline ↗ · 2026-05-08 缓存

宣布推出 liquid-audio，这是 Liquid AI 端到端语音转语音 LFM 模型（LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B）的开源仓库，支持交错和顺序生成模式以及微调功能。

0 人收藏 0 人点赞

#speech-to-speech

@kwindla：OpenAI 今天发布了一款新的语音到语音模型：gpt-realtime-2 这是首个足够好的语音到语音模型……

X AI KOLs Following ↗ · 2026-05-07

OpenAI 发布了 gpt-realtime-2，一款新的语音到语音模型，针对实时语音代理交互和低延迟工具调用进行了优化。

0 人收藏 0 人点赞

#speech-to-speech

# 推出 gpt-realtime 和实时 API 更新，用于生产级语音智能体来源：[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API，包含新功能，使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫，使语音智能体更

0 人收藏 0 人点赞

speech-to-speech

提交意见反馈