speech-to-speech

标签

Cards List
#speech-to-speech

基于参考的口语对话系统韵律与节奏评估

arXiv cs.CL · 2天前 缓存

本文提出了一种基于参考的评估协议,用于评估语音到语音AI系统的韵律和节奏,通过匹配人类对话数据提供可解释的行为合理性检查。

0 人收藏 0 人点赞
#speech-to-speech

Hugging Face和Cerebras将Gemma 4引入实时语音AI

Hugging Face Blog · 2天前 缓存

Hugging Face和Cerebras展示了一个实时语音到语音流水线,结合了开源模型(Nvidia的Parakeet、Gemma 4、Qwen3TTS)与Cerebras的快速推理,实现了自然的对话式AI,并为Reachy Mini等机器人提供动力。

0 人收藏 0 人点赞
#speech-to-speech

Dziri Voicebot:面向阿尔及利亚方言的端到端低资源语音对话系统

arXiv cs.CL · 2026-06-25 缓存

本文提出了一种模块化的端到端语音对话系统,适用于低资源的阿尔及利亚方言,集成了ASR、NLU、RAG和TTS,并使用了专用数据集和微调模型。

0 人收藏 0 人点赞
#speech-to-speech

Gemma 4 12B 原生无编码器语音输入利用建议?

Reddit r/LocalLLaMA · 2026-06-14

讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入,寻找现成的低延迟流式音频摄入解决方案。

0 人收藏 0 人点赞
#speech-to-speech

Gemini 3.5 Live Translate

Product Hunt · 2026-06-09

Gemini 3.5 Live Translate 是一款全新的音频模型,用于实时语音到语音翻译。

0 人收藏 0 人点赞
#speech-to-speech

@GoogleDeepMind: 3.5 Live Translate 可以将语音转换为超过70种语言,并在流式传输时进行处理——同时保留语调、节奏…

X AI KOLs · 2026-06-09 缓存

Google DeepMind 宣布推出 Live Translate 功能,该功能可实时将语音转换为超过70种语言,同时保留语调、节奏和音高,以实现更自然的对话。

0 人收藏 0 人点赞
#speech-to-speech

借助 Gemini 3.5 Live Translate 实现流畅自然的语音翻译

Google DeepMind Blog · 2026-06-09 缓存

Google 发布了 Gemini 3.5 Live Translate,这是一款音频模型,支持超过 70 种语言的近乎实时的语音到语音翻译,并保留说话者的语调和节奏。该功能正在 Google 产品中逐步推出,包括 Gemini Live API、Google Meet 和 Google Translate。

0 人收藏 0 人点赞
#speech-to-speech

语音到语音翻译模型基准测试

arXiv cs.CL · 2026-06-03 缓存

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。

0 人收藏 0 人点赞
#speech-to-speech

@gdb: OpenAI 实时翻译 — 支持 70 多种输入语言,并翻译成 13 种输出语言:

X AI KOLs Following · 2026-05-29 缓存

OpenAI 发布了一个新的专用模型 gpt-realtime-translate,该模型可接收来自 70 多种输入语言的语音音频,并输出 13 种目标语言的语音,实现实时翻译。

0 人收藏 0 人点赞
#speech-to-speech

OpenSTBench:超越语义评估的语音翻译

Hugging Face Daily Papers · 2026-05-29

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。

0 人收藏 0 人点赞
#speech-to-speech

构建实时语音翻译应用(阅读时长:28 分钟)

TLDR AI · 2026-05-11 缓存

OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。

0 人收藏 0 人点赞
#speech-to-speech

@paulabartabajo_:给AI工程师的建议 如果你正在构建语音智能体,别再连接3个独立模型了,用于音频转文本、文本转音频,或文本转文本……

X AI KOLs Timeline · 2026-05-08 缓存

宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。

0 人收藏 0 人点赞
#speech-to-speech

@kwindla:OpenAI 今天发布了一款新的语音到语音模型:gpt-realtime-2 这是首个足够好的语音到语音模型……

X AI KOLs Following · 2026-05-07

OpenAI 发布了 gpt-realtime-2,一款新的语音到语音模型,针对实时语音代理交互和低延迟工具调用进行了优化。

0 人收藏 0 人点赞
#speech-to-speech

推出 gpt-realtime 和实时 API 更新

OpenAI Blog · 2025-08-28 缓存

# 推出 gpt-realtime 和实时 API 更新,用于生产级语音智能体 来源:[https://openai.com/index/introducing-gpt-realtime/](https://openai.com/index/introducing-gpt-realtime/) 今天我们推出了正式版实时 API,包含新功能,使开发者和企业能够构建可靠的、生产级就绪的语音智能体。该 API 现已支持远程 MCP 服务器、图像输入和通过会话初始协议 (SIP) 进行电话呼叫,使语音智能体更

0 人收藏 0 人点赞
← 返回首页

提交意见反馈