Descript 如何大规模实现多语言视频配音
摘要
Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。
使用 OpenAI 推理模型,Descript 实现了大型内容库的自动本地化,且不损失时间或意义。
查看缓存全文
缓存时间: 2026/04/20 14:52
# Descript 如何大规模实现多语言视频配音
来源:https://openai.com/index/descript/
Descript(opens in a new window) (http://descript.com/) 是一个基于 AI 的视频编辑器,其核心理念很简单:如果能够编辑文字,就应该能够编辑视频。从 Descript 早期开始,AI 就已经驱动了产品的方方面面:转录、编辑、音频清理,以及日益复杂的创意工作流。他们多年来一直基于 OpenAI 构建,使用 Whisper 进行转录,并在其协同编辑器 Underlord 中使用 GPT 系列模型。
翻译很快成为一个高影响力的应用场景。传统上,视频翻译既慢又贵,需要语言专家管理项目、完成机械翻译、处理质量控制并生成对应的音频。LLM 极大地压缩了这一流程,使得大规模高质量翻译成为可能。
字幕和配音都要求语义保真:翻译必须保留原始含义。但时长控制在两者中的作用不同。对于字幕,它是锦上添花。对于配音,它至关重要,因为如果翻译后的语音过长或过短,即使意思正确,听起来也会不自然。
为了解决这一问题,Descript 重新设计了其翻译流水线,使用 OpenAI 推理模型在生成过程中(而非事后)同时优化语义保真度和时长匹配。上线后 30 天内,带配音的翻译视频导出量增加了 15%,时长匹配度根据不同语言提升了 13 到 43 个百分点。
“配音是 Descript 越来越受欢迎的一个用例,因此我们正在为企业构建批量翻译和唇形同步的功能,以处理整个内容库,”CEO Laura Burkhauser 表示。
翻译是 Descript 最早也是最受请求的功能之一。他们从仅支持字幕翻译开始,效果不错——但许多用户希望更进一步,实现目标语言的语音音频(配音)。
然而,一个问题始终存在:配音后的音频听起来并不总是对的。“我们听到的头号投诉大概是,翻译后语言的语速不自然,”Descript 的 AI 产品负责人 Aleks Mistratov 说。
问题根源在于,不同语言表达同一个想法所需的时间不同。例如,Descript 观察到,平均而言德语比英语“更长”。为了适配固定的视频片段,翻译后的语音往往需要人为加速或减速。“最终听起来要么像花栗鼠,要么像昏睡的巨人,”Mistratov 解释道。
*在这个例子中,德语音频要么必须被不自然地加速,要么需要重写翻译以符合时间预算。*
用户面临两个选择:手动逐段重新调整音频时长,或者重写翻译本身使其贴合。这两种方法都需要深入的时间线编辑,并且通常要求用户具备近乎母语水平的目标语言能力。对创作者来说十分繁琐,并且成为了将这一功能扩展到大型企业本地化项目的瓶颈。
团队对如何让配音顺利工作有明确的理论。系统不仅需要优化语义含义,还必须考虑时间约束。例如,从英语翻译成德语时,模型需要理解如何用更少的词或简化概念,从而使配音后的音频保持自然。
早期的做法是先优化语义保真度,再尝试事后修正时间。翻译在语义上通常正确,但经常不能满足时长约束,整体质量仍然不够好。
“我们做了增量测试,甚至不生成内容,只是让模型输出一段文本的音节数,”Mistratov 说。“早期的模型在这方面表现不好。”
可靠的音节计数变得至关重要。如果模型无法一致地计算音节,就无法可靠地定位到特定的时长窗口。
GPT‑5 系列模型带来了早期模型所缺乏的推理一致性,尤其是在音节计数和约束跟踪等任务上。有了这一改进,Descript 重新设计了其翻译和配音流水线。
首先,Descript 的系统根据原始录音中的句子边界、自然停顿和说话模式将转录文本拆分为多个片段。每个片段保持语义连贯性,但又足够小,可以作为一个时间单元进行推理。
然后,模型计算该片段中的音节数。利用基于语言语速的假设,系统估计翻译后的片段应该针对多少音节,以保持自然的节奏(“时长匹配”)。提示要求模型同时优化时长匹配和意义保留。相邻片段被作为上下文传入,以确保模型在跨片段时保持语义连贯。
团队评估了多种配置以平衡时长匹配、语义保真度、延迟和成本。所选方案在生产速度下实现了强大的约束遵循能力,无需手动重新调整时间即可进行大规模翻译。结果是一个将节奏视为一等变量而非事后修正物的翻译流水线。
为了制定评估的验收标准,团队进行了听感测试:他们生成翻译后的音频样本,并以微小增量调整播放速度,让用户评价何时语音变得不自然。
“任何放慢 10% 或加速 20% 的音频通常听起来仍然自然,”Mistratov 说。超出这个范围,语音就会变得太失真。
早期系统在这一指标上表现不佳。根据语言不同,只有 40% 到 60% 的片段落在可接受的节奏窗口内。使用重新设计的流水线后,这一数字根据语言不同从 40%–60% 上升到 73% 到 83%。
团队还使用独立的模型作为裁判,按 1(“完全不同”)到 5(“语义等价”)的量表评估语义保真度。对于配音,他们决定接受比纯字幕翻译更低的语义阈值(纯字幕翻译中时长约束无关)。即使有这种取舍,85.5% 的片段在语义保真度上被评为四分或五分。
最终成果是一个能够以可衡量的置信度平衡两个竞争约束(时间与意义)的系统。由于两个指标都是自动化的,Descript 能够持续针对相同的基准评估新的模型版本和提示词变体。
随着翻译从单个视频扩展到大型内容库,Descript 正在构建更多控制手段来调整翻译,包括在需要时优先考虑更严格的语义保真度。
Descript 内部的翻译只是更广泛多模态系统的一个层面。翻译后的文本输入语音生成,进而驱动唇形同步和最终视频渲染。
文本层面的改进使自然节奏成为可能,但整体体验还取决于音频模型在保留语调、节奏和非语言特征方面的表现。这也是团队看到的下一步前沿。
“提升翻译输出的很大一部分在于让流水线更加多模态:在决定如何翻译时,将音频、视频和文本结合起来考虑,”Mistratov 说。“这应该能更好地保留语音的非语言特征,比如语调和强调,并保留更多原始表达的细节。”
对于 Descript 来说,更强的推理模型使配音的复杂性变得可控。一旦模型能够可靠地平衡节奏与意义之间的取舍,翻译就变成了一个团队可以系统性改进并大规模部署的事情。
相似文章
ElevenLabs Dubbing v2
ElevenLabs 发布了 Dubbing v2,这是一款 AI 配音模型,通过直接基于原始音频进行条件处理,能够在 90 多种语言中保留原始说话者的情感、语调和表演,提供广播级品质的配音,而成本仅为传统方式的一小部分。
@Fluyeporlaweb: ElevenLabs每年花费700美元。HeyGen又是700美元。有人刚刚发布了本地配音研究,彻底取代了这两种订阅…
OmniVoice Studio是一款免费的开源工具,可在本地将MP4视频配音成600种语言。它使用Whisper进行转录,从3秒音频中克隆声音,并利用Demucs分离背景音,从而无需ElevenLabs和HeyGen等付费订阅。
@GoogleDeepMind: 3.5 Live Translate 可以将语音转换为超过70种语言,并在流式传输时进行处理——同时保留语调、节奏…
Google DeepMind 宣布推出 Live Translate 功能,该功能可实时将语音转换为超过70种语言,同时保留语调、节奏和音高,以实现更自然的对话。
Yeta AI / YouTube 翻译器
Yeta AI 是一款新产品,可为 YouTube 视频提供实时 AI 配音和翻译服务。
jdopensource/JoyAI-Echo
京东开源发布了JoyAI-Echo(Echo-LongVideo),这是一个文本到音视频扩散模型,能够生成分钟级的多镜头视频,保持角色身份和声音一致,并利用DMD蒸馏实现了7.5倍的速度提升。