Descript 如何大规模实现多语言视频配音

OpenAI Blog 2026/03/06 00:00 产品

video-editing dubbing multilingual ai-native openai scale

摘要

Descript 重新设计了其翻译管道，使用 OpenAI 推理模型来优化大规模多语言视频配音，通过解决语音时长与视频时间限制匹配的挑战，实现了翻译视频导出量增加 15%，以及各语言时长符合度提升 13-43%。

使用 OpenAI 推理模型，Descript 实现了大型内容库的自动本地化，且不损失时间或意义。

查看缓存全文

缓存时间: 2026/04/20 14:52

# Descript 如何大规模实现多语言视频配音来源：https://openai.com/index/descript/ Descript(opens in a new window) (http://descript.com/) 是一个基于 AI 的视频编辑器，其核心理念很简单：如果能够编辑文字，就应该能够编辑视频。从 Descript 早期开始，AI 就已经驱动了产品的方方面面：转录、编辑、音频清理，以及日益复杂的创意工作流。他们多年来一直基于 OpenAI 构建，使用 Whisper 进行转录，并在其协同编辑器 Underlord 中使用 GPT 系列模型。翻译很快成为一个高影响力的应用场景。传统上，视频翻译既慢又贵，需要语言专家管理项目、完成机械翻译、处理质量控制并生成对应的音频。LLM 极大地压缩了这一流程，使得大规模高质量翻译成为可能。字幕和配音都要求语义保真：翻译必须保留原始含义。但时长控制在两者中的作用不同。对于字幕，它是锦上添花。对于配音，它至关重要，因为如果翻译后的语音过长或过短，即使意思正确，听起来也会不自然。为了解决这一问题，Descript 重新设计了其翻译流水线，使用 OpenAI 推理模型在生成过程中（而非事后）同时优化语义保真度和时长匹配。上线后 30 天内，带配音的翻译视频导出量增加了 15%，时长匹配度根据不同语言提升了 13 到 43 个百分点。 “配音是 Descript 越来越受欢迎的一个用例，因此我们正在为企业构建批量翻译和唇形同步的功能，以处理整个内容库，”CEO Laura Burkhauser 表示。翻译是 Descript 最早也是最受请求的功能之一。他们从仅支持字幕翻译开始，效果不错——但许多用户希望更进一步，实现目标语言的语音音频（配音）。然而，一个问题始终存在：配音后的音频听起来并不总是对的。“我们听到的头号投诉大概是，翻译后语言的语速不自然，”Descript 的 AI 产品负责人 Aleks Mistratov 说。问题根源在于，不同语言表达同一个想法所需的时间不同。例如，Descript 观察到，平均而言德语比英语“更长”。为了适配固定的视频片段，翻译后的语音往往需要人为加速或减速。“最终听起来要么像花栗鼠，要么像昏睡的巨人，”Mistratov 解释道。 *在这个例子中，德语音频要么必须被不自然地加速，要么需要重写翻译以符合时间预算。* 用户面临两个选择：手动逐段重新调整音频时长，或者重写翻译本身使其贴合。这两种方法都需要深入的时间线编辑，并且通常要求用户具备近乎母语水平的目标语言能力。对创作者来说十分繁琐，并且成为了将这一功能扩展到大型企业本地化项目的瓶颈。团队对如何让配音顺利工作有明确的理论。系统不仅需要优化语义含义，还必须考虑时间约束。例如，从英语翻译成德语时，模型需要理解如何用更少的词或简化概念，从而使配音后的音频保持自然。早期的做法是先优化语义保真度，再尝试事后修正时间。翻译在语义上通常正确，但经常不能满足时长约束，整体质量仍然不够好。 “我们做了增量测试，甚至不生成内容，只是让模型输出一段文本的音节数，”Mistratov 说。“早期的模型在这方面表现不好。” 可靠的音节计数变得至关重要。如果模型无法一致地计算音节，就无法可靠地定位到特定的时长窗口。 GPT‑5 系列模型带来了早期模型所缺乏的推理一致性，尤其是在音节计数和约束跟踪等任务上。有了这一改进，Descript 重新设计了其翻译和配音流水线。首先，Descript 的系统根据原始录音中的句子边界、自然停顿和说话模式将转录文本拆分为多个片段。每个片段保持语义连贯性，但又足够小，可以作为一个时间单元进行推理。然后，模型计算该片段中的音节数。利用基于语言语速的假设，系统估计翻译后的片段应该针对多少音节，以保持自然的节奏（“时长匹配”）。提示要求模型同时优化时长匹配和意义保留。相邻片段被作为上下文传入，以确保模型在跨片段时保持语义连贯。团队评估了多种配置以平衡时长匹配、语义保真度、延迟和成本。所选方案在生产速度下实现了强大的约束遵循能力，无需手动重新调整时间即可进行大规模翻译。结果是一个将节奏视为一等变量而非事后修正物的翻译流水线。为了制定评估的验收标准，团队进行了听感测试：他们生成翻译后的音频样本，并以微小增量调整播放速度，让用户评价何时语音变得不自然。 “任何放慢 10% 或加速 20% 的音频通常听起来仍然自然，”Mistratov 说。超出这个范围，语音就会变得太失真。早期系统在这一指标上表现不佳。根据语言不同，只有 40% 到 60% 的片段落在可接受的节奏窗口内。使用重新设计的流水线后，这一数字根据语言不同从 40%–60% 上升到 73% 到 83%。团队还使用独立的模型作为裁判，按 1（“完全不同”）到 5（“语义等价”）的量表评估语义保真度。对于配音，他们决定接受比纯字幕翻译更低的语义阈值（纯字幕翻译中时长约束无关）。即使有这种取舍，85.5% 的片段在语义保真度上被评为四分或五分。最终成果是一个能够以可衡量的置信度平衡两个竞争约束（时间与意义）的系统。由于两个指标都是自动化的，Descript 能够持续针对相同的基准评估新的模型版本和提示词变体。随着翻译从单个视频扩展到大型内容库，Descript 正在构建更多控制手段来调整翻译，包括在需要时优先考虑更严格的语义保真度。 Descript 内部的翻译只是更广泛多模态系统的一个层面。翻译后的文本输入语音生成，进而驱动唇形同步和最终视频渲染。文本层面的改进使自然节奏成为可能，但整体体验还取决于音频模型在保留语调、节奏和非语言特征方面的表现。这也是团队看到的下一步前沿。 “提升翻译输出的很大一部分在于让流水线更加多模态：在决定如何翻译时，将音频、视频和文本结合起来考虑，”Mistratov 说。“这应该能更好地保留语音的非语言特征，比如语调和强调，并保留更多原始表达的细节。” 对于 Descript 来说，更强的推理模型使配音的复杂性变得可控。一旦模型能够可靠地平衡节奏与意义之间的取舍，翻译就变成了一个团队可以系统性改进并大规模部署的事情。

Descript 如何大规模实现多语言视频配音

相似文章

Invideo AI 利用 OpenAI 模型将视频创建速度提升 10 倍

MoVE：通过语音专家混合模型在语音到语音翻译中保留笑声与哭泣

OpenAI的新语音模型不止于回话

API 推出全新模型，推动语音智能发展

先思考，再打分：解耦推理与打分的视频奖励建模

提交意见反馈