Descript 如何大规模实现多语言视频配音

OpenAI Blog 产品

摘要

Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。

使用 OpenAI 推理模型,Descript 实现了大型内容库的自动本地化,且不损失时间或意义。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:52

# Descript 如何大规模实现多语言视频配音 来源:https://openai.com/index/descript/ Descript(opens in a new window) (http://descript.com/) 是一个基于 AI 的视频编辑器,其核心理念很简单:如果能够编辑文字,就应该能够编辑视频。从 Descript 早期开始,AI 就已经驱动了产品的方方面面:转录、编辑、音频清理,以及日益复杂的创意工作流。他们多年来一直基于 OpenAI 构建,使用 Whisper 进行转录,并在其协同编辑器 Underlord 中使用 GPT 系列模型。 翻译很快成为一个高影响力的应用场景。传统上,视频翻译既慢又贵,需要语言专家管理项目、完成机械翻译、处理质量控制并生成对应的音频。LLM 极大地压缩了这一流程,使得大规模高质量翻译成为可能。 字幕和配音都要求语义保真:翻译必须保留原始含义。但时长控制在两者中的作用不同。对于字幕,它是锦上添花。对于配音,它至关重要,因为如果翻译后的语音过长或过短,即使意思正确,听起来也会不自然。 为了解决这一问题,Descript 重新设计了其翻译流水线,使用 OpenAI 推理模型在生成过程中(而非事后)同时优化语义保真度和时长匹配。上线后 30 天内,带配音的翻译视频导出量增加了 15%,时长匹配度根据不同语言提升了 13 到 43 个百分点。 “配音是 Descript 越来越受欢迎的一个用例,因此我们正在为企业构建批量翻译和唇形同步的功能,以处理整个内容库,”CEO Laura Burkhauser 表示。 翻译是 Descript 最早也是最受请求的功能之一。他们从仅支持字幕翻译开始,效果不错——但许多用户希望更进一步,实现目标语言的语音音频(配音)。 然而,一个问题始终存在:配音后的音频听起来并不总是对的。“我们听到的头号投诉大概是,翻译后语言的语速不自然,”Descript 的 AI 产品负责人 Aleks Mistratov 说。 问题根源在于,不同语言表达同一个想法所需的时间不同。例如,Descript 观察到,平均而言德语比英语“更长”。为了适配固定的视频片段,翻译后的语音往往需要人为加速或减速。“最终听起来要么像花栗鼠,要么像昏睡的巨人,”Mistratov 解释道。 *在这个例子中,德语音频要么必须被不自然地加速,要么需要重写翻译以符合时间预算。* 用户面临两个选择:手动逐段重新调整音频时长,或者重写翻译本身使其贴合。这两种方法都需要深入的时间线编辑,并且通常要求用户具备近乎母语水平的目标语言能力。对创作者来说十分繁琐,并且成为了将这一功能扩展到大型企业本地化项目的瓶颈。 团队对如何让配音顺利工作有明确的理论。系统不仅需要优化语义含义,还必须考虑时间约束。例如,从英语翻译成德语时,模型需要理解如何用更少的词或简化概念,从而使配音后的音频保持自然。 早期的做法是先优化语义保真度,再尝试事后修正时间。翻译在语义上通常正确,但经常不能满足时长约束,整体质量仍然不够好。 “我们做了增量测试,甚至不生成内容,只是让模型输出一段文本的音节数,”Mistratov 说。“早期的模型在这方面表现不好。” 可靠的音节计数变得至关重要。如果模型无法一致地计算音节,就无法可靠地定位到特定的时长窗口。 GPT‑5 系列模型带来了早期模型所缺乏的推理一致性,尤其是在音节计数和约束跟踪等任务上。有了这一改进,Descript 重新设计了其翻译和配音流水线。 首先,Descript 的系统根据原始录音中的句子边界、自然停顿和说话模式将转录文本拆分为多个片段。每个片段保持语义连贯性,但又足够小,可以作为一个时间单元进行推理。 然后,模型计算该片段中的音节数。利用基于语言语速的假设,系统估计翻译后的片段应该针对多少音节,以保持自然的节奏(“时长匹配”)。提示要求模型同时优化时长匹配和意义保留。相邻片段被作为上下文传入,以确保模型在跨片段时保持语义连贯。 团队评估了多种配置以平衡时长匹配、语义保真度、延迟和成本。所选方案在生产速度下实现了强大的约束遵循能力,无需手动重新调整时间即可进行大规模翻译。结果是一个将节奏视为一等变量而非事后修正物的翻译流水线。 为了制定评估的验收标准,团队进行了听感测试:他们生成翻译后的音频样本,并以微小增量调整播放速度,让用户评价何时语音变得不自然。 “任何放慢 10% 或加速 20% 的音频通常听起来仍然自然,”Mistratov 说。超出这个范围,语音就会变得太失真。 早期系统在这一指标上表现不佳。根据语言不同,只有 40% 到 60% 的片段落在可接受的节奏窗口内。使用重新设计的流水线后,这一数字根据语言不同从 40%–60% 上升到 73% 到 83%。 团队还使用独立的模型作为裁判,按 1(“完全不同”)到 5(“语义等价”)的量表评估语义保真度。对于配音,他们决定接受比纯字幕翻译更低的语义阈值(纯字幕翻译中时长约束无关)。即使有这种取舍,85.5% 的片段在语义保真度上被评为四分或五分。 最终成果是一个能够以可衡量的置信度平衡两个竞争约束(时间与意义)的系统。由于两个指标都是自动化的,Descript 能够持续针对相同的基准评估新的模型版本和提示词变体。 随着翻译从单个视频扩展到大型内容库,Descript 正在构建更多控制手段来调整翻译,包括在需要时优先考虑更严格的语义保真度。 Descript 内部的翻译只是更广泛多模态系统的一个层面。翻译后的文本输入语音生成,进而驱动唇形同步和最终视频渲染。 文本层面的改进使自然节奏成为可能,但整体体验还取决于音频模型在保留语调、节奏和非语言特征方面的表现。这也是团队看到的下一步前沿。 “提升翻译输出的很大一部分在于让流水线更加多模态:在决定如何翻译时,将音频、视频和文本结合起来考虑,”Mistratov 说。“这应该能更好地保留语音的非语言特征,比如语调和强调,并保留更多原始表达的细节。” 对于 Descript 来说,更强的推理模型使配音的复杂性变得可控。一旦模型能够可靠地平衡节奏与意义之间的取舍,翻译就变成了一个团队可以系统性改进并大规模部署的事情。

相似文章

Invideo AI 利用 OpenAI 模型将视频创建速度提升 10 倍

OpenAI Blog

印度初创公司 Invideo AI 推出了基于 OpenAI 模型(GPT-4.1、o3、gpt-image-1、text-to-speech)构建的多智能体视频创建平台,用户可以通过自然语言提示快速生成专业级视频,速度提升 10 倍。该系统采用专门的 AI 智能体处理规划、编剧、研究、内容审核、视觉生成和配音等工作,目前已为超过 5000 万用户服务,每月创建 700 万个视频。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。

API 推出全新模型,推动语音智能发展

OpenAI Blog

OpenAI 在 API 中发布了三款全新语音模型:具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,旨在实现更自然、更具行动力的语音应用。

先思考,再打分:解耦推理与打分的视频奖励建模

Hugging Face Daily Papers

本文介绍了 DeScore,这是一种通过解耦推理和打分过程来提高训练效率和泛化能力的视频奖励模型。它利用多模态大语言模型采用“先思考再打分”的范式,解决了现有判别式和生成式奖励模型的局限性。