@_philschmid:使用新的 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建实时翻译应用。内容包括:1.…
摘要
一篇关于使用 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建实时翻译应用的教程,涵盖音频流传输、翻译和部署。
查看缓存全文
缓存时间: 2026/06/18 18:10
使用全新的 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建一个实时翻译应用。内容涵盖:
- 通过 WebRTC 将主持人音频流传输到 LiveKit Room
- 将 PCM 帧传输到 Gemini Live 进行即时翻译
- 将翻译后的音频作为独立的语言轨道发布
- 使用 100ms 帧分块优化延迟(50Hz → 10Hz)
- 使用 Secret Manager 和自动扩缩部署到 Cloud Run
相关链接
博客:https://dev.to/googleai/build-a-realtime-translation-app-with-gemini-live-api-livekit-google-cloud-run-5474…
代码:https://github.com/google-gemini/gemini-live-api-examples/tree/main/gemini-live-translate-livekit…
相似文章
@_philschmid: 文档: http://ai.google.dev/gemini-api/docs/live-api/live-translate… GitHub: http://github.com/google-gemini/gemini-live…
Google 推出了 Gemini Live API 用于实时翻译,并提供了文档、GitHub 示例和一篇博客文章。
@livekit: 我们使用LiveKit上的Gemini 3.5 Live Translate构建了一个实时多语言多人视频通话。每个人选择自己的语言…
LiveKit 使用 Gemini 3.5 Live Translate 构建了一个实时多语言视频通话,参与者可以用自己的语言发言并实时听到翻译。开源代码可在 GitHub 上获取。
Gemini 3.5 Live Translate
Gemini 3.5 Live Translate 是一款全新的音频模型,用于实时语音到语音翻译。
构建实时语音翻译应用(阅读时长:28 分钟)
OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。
借助 Gemini 3.5 Live Translate 实现流畅自然的语音翻译
Google 发布了 Gemini 3.5 Live Translate,这是一款音频模型,支持超过 70 种语言的近乎实时的语音到语音翻译,并保留说话者的语调和节奏。该功能正在 Google 产品中逐步推出,包括 Gemini Live API、Google Meet 和 Google Translate。