面向印地语系语言的视觉引导电影字幕翻译

arXiv cs.CL 论文

摘要

本文针对资源匮乏的印地语系语言进行了一项关于视觉引导电影字幕翻译的案例研究,证明选择性视觉接地(visual grounding)在解决时间错位挑战的同时,能够有效提升翻译质量。

arXiv:2605.11993v1 公告类型:新论文 摘要:电影字幕翻译本质上是多模态的,然而仅基于文本的系统往往无法捕捉传达情感、动作和社会细微差别所需的视觉线索,尤其是在针对资源匮乏的印地语系语言(从英语翻译为印地语、孟加拉语、泰卢固语、泰米尔语和卡纳达语)时。我们对五部全长电影进行了案例研究,并比较了两种轻量级的视觉接地策略:基于5分钟滑动窗口的结构化属性摘要,以及字幕间隙视觉内容的自由文本摘要。我们的分析表明,在长视频内容中,字幕与帧之间的时间错位是一个主要障碍,往往使得无差别的视觉接地无效。然而,预言选择性接地(oracle selective grounding)——即用视觉增强后的输出替换基线中质量最低的20-30%片段——始终能在大幅减少视觉处理需求的同时,将COMET评分提升于纯文本基线之上。在两种方法中,基于粗粒度属性的视觉上下文摘要更为稳健,能够捕捉到纯文本常常遗漏的场景级情感和细微语境线索。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:20

# 面向印地语系电影字幕视觉引导翻译的研究

来源:https://arxiv.org/html/2605.11993
Tarun Chintada, Kshetrimayum Boynao Singh, Asif Ekbal
印度巴特那印度理工学院计算机科学与工程系
\{tarunchintada1, boynfrancis, asif\.ekbal\}@gmail\.com

###### 摘要

电影字幕翻译本质上是多模态的,然而纯文本系统往往忽略传达情感、动作和社会细微差别所需的视觉线索,这对于低资源的印地语系语言(英语到印地语、孟加拉语、泰卢固语、泰米尔语和卡纳达语)尤为如此。我们针对五部全长电影进行了一项案例研究,并比较了两种轻量级的视觉定位策略:基于5分钟滑动窗口的结构化属性摘要,以及对字幕间视觉间隔的自由文本摘要。我们的分析表明,字幕与画面之间的时间不同步是长视频中的主要障碍,这使得 indiscriminate(不加区分)的视觉定位往往无效。然而,*Oracle selective(理想选择)*定位——即仅用视觉增强输出替换基线中质量最低的20-30%片段——在显著减少视觉处理量的同时,能一致地提高基于纯文本基线的 COMET 分数。在两种方法中,粗粒度的基于属性的视觉上下文摘要更为稳健,能够捕捉仅靠文本往往无法传达的场景级情感和上下文细微线索。

## 1 引言

随着流媒体平台和国际发行的兴起,全球对电影字幕翻译的需求呈指数级增长。字幕必须在严格的时空约束下传达意义,通常需要将对话性言语、习语表达和文化引用压缩为简短的定时片段。对于以丰富的形态特征[15]、双言现象和平行语料稀缺为特征的印度低资源语言而言,这些挑战被进一步放大,纯文本机器翻译(MT)系统经常产生过于字面或上下文不足的翻译[16, 2]。

参见图1:多模态字幕翻译管道架构

电影本质上是多模态的:意义分布在对话、视觉场景、角色动作和情感线索中。原则上,融入视觉上下文可以消除指代歧义、解决敬语问题,并将翻译锚定在屏幕上的情境中[5]。然而,与传统的多模态机器翻译任务(例如,翻译图像字幕)不同,电影字幕翻译呈现出两个独特的困难。

首先,大多数字幕片段并不依赖视觉信息。大部分对话是对话性质的,仅从文本中就能准确翻译。视觉定位仅在少数情况下有益——动作线索[6, 7]、情感驱动的[14]交流或对可见物体的引用。例如,翻译“他来了!”这句话需要知道威胁来源是人、动物还是车辆;这类信息在视觉上是可用的。相比之下,像“你的一天过得怎么样?”这样的典型交流,从伴随的视觉画面中获益甚少。这种不对称性使得不加区分地应用计算昂贵的视觉处理既低效又不必要。

其次,长电影中的视觉和文本流通常不同步。字幕是独立于视频帧生成的,累积的时间漂移可能导致相当一部分字幕与无关或误导性的视觉内容配对[18]。在一部180分钟的电影中,每小时仅一秒钟的漂移会累积成三分钟的不匹配,影响相当一部分字幕片段。当视觉上下文不同步时,它不再有帮助,甚至可能主动降低翻译质量[1],这一现象在多模态 MT 文献中很少被讨论[12]。

受这些实际现实的启发,我们进行了一项案例研究,系统地比较了将视觉上下文集成到五种印度语言(印地语、孟加拉语、泰卢固语、卡纳达语和泰米尔语)字幕翻译中的两种基于摘要的策略。这些语言代表了不同程度的形态复杂性和文化细微差别,使其成为研究低资源环境下多模态字幕翻译的理想对象[4]。这两种策略是:

1. 属性视觉上下文(Attr-VC):聚合5分钟滑动窗口的原始视觉描述,并使用 Llama 3.1 将其总结为结构化属性(例如,场景、性别、敬语、情感意图)。
2. 片段间视觉摘要(Inter-VS):使用 Llama 3.1 将对话轮次之间(间隙)发生的视觉内容总结为自由文本描述。

我们使用跨越不同流派五部全长电影的字幕,在现实条件下评估这些方法。一个核心发现是,由于时间不同步,不加区分地应用视觉上下文往往会降低性能。然而,*理想选择定位*——用视觉增强翻译替换基线中最差的20-30%片段(按基线 COMET 分数计算)——始终能改善语义充分性(COMET),优于纯文本基线,在恢复大部分增益的同时仅使用了一小部分视觉处理。粗粒度的基于属性的摘要证明特别稳健,能够捕捉文本单独无法传达的情感语调和场景级线索。本工作的关键贡献如下:

1. 针对低资源字幕翻译的两种视觉摘要策略的比较案例研究。
2. 识别并量化时间不同步作为长形式多模态 MT 中的主要实际障碍。
3. 经验证据表明粗粒度属性摘要对漂移具有抵抗力,且选择性定位可以恢复大部分增益。

表1:五部电影的视觉数据统计。提取的帧是在每个字幕片段的时间跨度内采样的。

## 2 数据集准备与资源

为了在现实设置下评估多模态字幕翻译,我们整理了一个源自五部商业发行电影的数据集,选片旨在确保流派、叙事风格和视觉复杂性的多样性:《泰坦尼克号》(1997)、《007:大破天幕杀机》(2012)、《奥本海默》(2023)、《蜘蛛侠2》(2004)和《阿凡达2》(2022)。这些电影涵盖了浪漫、动作、历史剧、科幻和超级英雄等流派,提供了广泛的对话类型和视觉 grounding 场景。

### 2.1 电影与视觉数据

对于每部电影,我们以24帧/秒的速率提取视频帧,并将其与字幕时间戳对齐。表1总结了视觉数据,包括总时长、总帧数以及在字幕时间跨度内提取的帧数(即落在字幕片段时间窗口内的帧)。提取的帧作为我们多模态方法的视觉输入。

### 2.2 字幕语料库

我们从公开来源[2]提取字幕,并使其与相应的视频片段在时间上对齐。所有字幕对都经过预处理,以去除噪声、标准化标点符号,并过滤过长或过短的片段。表2提供了每部电影的详细统计数据,包括字幕对的数量(英语源语言和目标语言)、英语源语言的平均单词长度以及英语源语言的平均字符长度。平行字幕可用于印地语(除《阿凡达2》外的所有电影)、孟加拉语和泰卢固语(所有电影)、卡纳达语(除《蜘蛛侠2》外的所有电影)和泰米尔语(除《泰坦尼克号》外的所有电影)。这种选择确保覆盖语言多样的印度语言,同时尊重高质量平行字幕的可获得性。所有电影均以DVD形式合法购买。用于研究的帧提取构成合理使用,并遵循视频-语言基准测试的标准做法。

表2:每部电影的字幕统计。总对数代表英语字幕片段数量。

### 2.3 数据发布

为了促进可重复性和进一步研究,我们将在合理使用教育/研究许可下发布所有五种语言的电影-字幕-视觉对齐数据。发布内容包括英语源文本、参考翻译和提取的视觉描述。复现实验的代码和说明也将公开提供。

## 3 方法论

我们的方法论旨在适用于现实世界:所有模型均在零样本设置中现成使用,不进行微调或训练,且管道完全可重现。我们使用 Qwen-2.5-7B-Instruct[11]作为翻译模型,Llama-3.1-8B-Instruct[8]用于摘要[3],Apple FastVLM-0.5B[17]用于视觉描述提取。管道如图1所示。对于纯文本基线,Qwen 仅提示英语源文本。这产生了纯文本翻译,作为视觉增强方法的比较基准。

### 3.1 视觉上下文生成

从每部电影中,我们以1帧/秒的速率采样帧,并使用 FastVLM-0.5B 获取原始文本描述。然后由 Llama-3.1 将这些描述总结为两种不同的形式:

#### 属性视觉上下文(Attr-VC)

聚合一个5分钟的滑动窗口(以字幕开始为中心),并将其总结为结构化属性:[场景]、[性别]、[关系]、[敬语]和[摘要]。这产生了一种粗略的高层级场景描述。

#### 片段间视觉摘要(Inter-VS)

将上一个字幕结束和当前字幕开始之间(视觉间隙)的原始描述总结为自由文本描述。这捕捉了对话轮次之间发生的视觉事件。用于这些摘要任务的完整提示在表6中提供。这两种摘要都使用相同的提示模板与英语源文本连接,该模板指示模型根据其视觉上下文进行翻译。

### 3.2 理想选择定位

为了估计选择性视觉定位的上限,我们计算基线翻译相对于参考翻译的每片段 COMET 分数。然后,我们替换最差的k%片段(按基线 COMET 分数计算)为相应的视觉增强翻译(来自 Attr-VC 或 Inter-VS)。我们尝试了 k=20% 和 30%。这种理想分析展示了如果能完美识别低质量基线片段时的潜在改进;它不需要任何训练,代表了实际质量估计系统的上限。

## 4 评估结果

### 4.1 评估设置

我们使用语料库级别的 BLEU[9]、chrF++[10]和 COMET[13]对完整整理后的测试集(所有对齐的字幕片段)进行评估。

### 4.2 结果与分析

我们将两种视觉摘要策略*属性视觉上下文(Attr-VC)*和*片段间视觉摘要(Inter-VS)*与纯文本基线进行比较。我们使用 Qwen-2.5-7B 在五部电影的六种印度语言(印地语、孟加拉语、泰卢固语、泰米尔语、卡纳达语)上进行了实验。

每部电影、每种语言的完整结果如表3所示。表4总结了每种语言的 COMET 改进情况。

| 电影 | 语言 | 基线 | 5分钟滑动视觉属性 | | | | 片段间视觉摘要 | | | |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| | | | BLEU | chrF++ | COMET | 视觉增强 | 理想选择 | 视觉增强 | 理想选择 | BLEU | chrF++ | COMET |
| Avatar | Ben | 5.68 | 28.71 | 0.6298 | 6.95 | 27.95 | 0.7014 | 6.92 | 29.98 | 0.6829 | 8.10 | 28.24 | 0.7137 |
| Avatar | Tel | 4.30 | 19.66 | 0.5257 | 3.28 | 18.23 | 0.5154 | 4.38 | 19.79 | 0.5390 | 3.67 | 18.32 | 0.5153 |
| Avatar | Tam | 3.85 | 23.49 | 0.5352 | 4.08 | 22.94 | 0.5545 | 4.24 | 24.36 | 0.5580 | 4.57 | 23.62 | 0.5613 |
| Avatar | Kan | 3.50 | 18.94 | 0.4857 | 2.34 | 15.20 | 0.4582 | 3.39 | 18.65 | 0.4933 | 2.23 | 15.28 | 0.4612 |
| Oppenh. | Ben | 8.05 | 29.38 | 0.7026 | 5.47 | 25.09 | 0.6735 | 8.03 | 29.41 | 0.7248 | 6.37 | 26.26 | 0.6858 |
| Oppenh. | Hin | 11.76 | 31.64 | 0.6467 | 8.62 | 27.28 | 0.5972 | 11.83 | 31.74 | 0.6642 | 9.62 | 28.72 | 0.6297 |
| Oppenh. | Tel | 4.04 | 18.86 | 0.5475 | 3.29 | 17.77 | 0.5387 | 3.89 | 19.13 | 0.5654 | 3.53 | 18.05 | 0.5379 |
| Oppenh. | Tam | 3.15 | 20.60 | 0.5366 | 3.15 | 21.37 | 0.5654 | 3.36 | 21.85 | 0.5630 | 3.47 | 21.63 | 0.5690 |
| Oppenh. | Kan | 2.95 | 16.81 | 0.4938 | 2.23 | 14.63 | 0.4740 | 2.96 | 17.20 | 0.5066 | 2.30 | 14.25 | 0.4735 |
| Skyfall | Ben | 6.31 | 27.30 | 0.6914 | 4.10 | 23.51 | 0.6588 | 6.04 | 27.39 | 0.7098 | 4.55 | 23.68 | 0.6612 |
| Skyfall | Hin | 6.31 | 25.65 | 0.6026 | 5.74 | 25.28 | 0.5882 | 6.53 | 26.68 | 0.6258 | 6.41 | 25.86 | 0.6098 |
| Skyfall | Tel | 2.47 | 17.68 | 0.5288 | 2.13 | 16.66 | 0.5248 | 2.24 | 18.00 | 0.5478 | 1.41 | 16.84 | 0.5157 |
| Skyfall | Tam | 2.33 | 21.09 | 0.5350 | 2.22 | 21.11 | 0.5581 | 2.59 | 21.78 | 0.5581 | 1.83 | 20.89 | 0.5595 |
| Skyfall | Kan | 1.59 | 16.88 | 0.4920 | 1.76 | 14.38 | 0.4668 | 1.59 | 16.90 | 0.5013 | 1.54 | 14.36 | 0.4682 |
| Spider2 | Ben | 9.58 | 26.81 | 0.7190 | 6.69 | 24.44 | 0.6902 | 9.10 | 26.97 | 0.7359 | 8.55 | 25.77 | 0.7021 |
| Spider2 | Hin | 12.33 | 29.15 | 0.6459 | 10.13 | 27.71 | 0.6286 | 12.61 | 30.20 | 0.6746 | 12.19 | 29.17 | 0.6532 |
| Spider2 | Tel | 5.22 | 18.47 | 0.5407 | 3.57 | 17.69 | 0.5349 | 5.04 | 18.84 | 0.5567 | 3.40 | 17.73 | 0.5342 |
| Spider2 | Tam | 4.12 | 21.65 | 0.5448 | 3.27 | 21.39 | 0.5601 | 4.29 | 22.73 | 0.5684 | 4.01 | 22.09 | 0.5694 |
| Titanic | Ben | 9.59 | 25.87 | 0.6960 | 7.04 | 22.97 | 0.6616 | 9.55 | 26.11 | 0.7130 | 8.65 | 24.97 | 0.6849 |
| Titanic | Hin | 11.98 | 26.59 | 0.6152 | 9.12 | 24.45 | 0.5711 | 11.92 | 27.12 | 0.6321 | 12.29 | 26.90 | 0.6176 |
| Titanic | Tel | 5.03 | 17.82 | 0.5350 | 3.85 | 16.99 | 0.5211 | 4.92 | 18.01 | 0.5481 | 4.32 | 17.52 | 0.5296 |
| Titanic | Kan | 4.95 | 17.16 | 0.4950 | 3.11 | 14.04 | 0.4670 | 4.73 | 16.97 | 0.5037 | 3.14 | 14.45 | 0.4665 |

表3:两种视觉摘要策略的比较。*5分钟滑动视觉属性*将5分钟滑动窗口聚合为结构化属性(场景、性别、敬语、情感);*片段间视觉摘要*总结对话轮次之间的视觉内容。对于每种方法,我们报告*视觉增强*(对所有片段使用完整视觉上下文)和*理想选择*(用视觉增强翻译替换基线中按基线 COMET 计算的最差30%片段)。此理想情况显示了选择性定位的上限。指标为语料库级别的 BLEU、chrF++ 和 COMET。**粗体**表示相同条件(视觉增强或理想选择)下两种方法之间的较高分。

表4:每种方法和条件下相对于基线的语言平均 COMET 改进(Δ)。正值表示改进。理想选择替换了按基线 COMET 计算的最差30%基线片段。

参见图2:

相似文章

Descript 如何大规模实现多语言视频配音

OpenAI Blog

Descript 重新设计了其翻译管道,使用 OpenAI 推理模型来优化大规模多语言视频配音,通过解决语音时长与视频时间限制匹配的挑战,实现了翻译视频导出量增加 15%,以及各语言时长符合度提升 13-43%。

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers

本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。

ForMaT:视觉引导的多语言PDF翻译数据集

arXiv cs.CL

本文介绍了ForMaT,一个包含15个语言对、3,956个PDF文件的平行语料库,专为视觉引导的多语言翻译而设计,保留了布局元数据,用于对布局感知的机器翻译系统进行基准测试。

当视觉为声音代言

Hugging Face Daily Papers

本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。

看我之意:面向视频细粒度对象理解的视觉与语言表征对齐

Hugging Face Daily Papers

SWIM是一种新颖的训练策略,仅使用文本提示即可对齐视觉和语言表征以实现细粒度对象理解,并在训练期间利用掩码监督来改善跨模态注意力。该方法引入了NL-Refer数据集,并在细粒度对象理解基准测试中取得了优于基于视觉提示的方法的性能。