@t0m1ab: 下周将前往首尔参加 ICML 2026,与 @romfbr31 一同展示 Hibiki-Zero[https://kyutai.org/blog/2026-02-12-hibiki…]
摘要
Kyutai 在 ICML 2026 首尔会议上展示了实时语音到语音翻译模型 Hibiki-Zero,口头报告定于 7 月 8 日进行。
查看缓存全文
缓存时间: 2026/06/30 17:51
Heading to ICML 2026 in Seoul next week with @romfbr31 to present Hibiki-Zero🇫🇷🇬🇧🇵🇹🇪🇸🇩🇪[https://t.co/D7gadZ36Ib], Kyutai’s latest real-time speech translation model. I’ll be giving an oral presentation on July 8 at 10:30 AM KST. Feel free to join if you’d like to learn more!💬 https://t.co/B0JzvUGNSq
无需对齐数据的同声语音翻译
来源:https://kyutai.org/blog/2026-02-12-hibiki-zero/
Kyutai 由 Iliad Group、CMA CGM Group 和 Schmidt Sciences 资助。衷心感谢我们的慷慨捐赠者。
Iliad Logo (https://www.iliad.fr/en/)CMA CGM Logo (https://www.cma-cgm.com/)Schmidt Sciences Logo (https://www.schmidtsciences.org/)
相似文章
@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…
X-Voice 是一个基于流匹配的多语言文本转语音系统,支持跨30种语言的零样本语音克隆,并提供开源代码、模型及演示。
@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
@taiyo_ai_gakuse: 哥们,我真的做了个超棒的东西哈哈,我自己构建了一个CLI,集成了新发布的GPT-Realtime-2,……
一位开发者分享了一个自定义CLI工具,利用新发布的GPT-Realtime-2 API,在视频会议平台中实现日英实时语音翻译。
@kyutai_labs: 新论文:全双工语音模型中的多面互动对齐 我们使用强化学习对语音模型(Mo…
Kyutai Labs 发布了一篇新论文,使用强化学习对语音模型(Moshi 和 PersonaPlex)进行后训练,以实现更像人类的交互,包括何时回应、等待或发出倾听提示。
构建实时语音翻译应用(阅读时长:28 分钟)
OpenAI 发布了 gpt-realtime-translate,这是一款专为实时口译优化的低延迟语音转语音模型,并附有开发者实战指南,用于构建支持多语言的浏览器、移动及视频应用。