手语间的直接翻译
摘要
本文介绍了一个直接的手语到手语翻译模型,它绕过了中间文本,通过使用回译来创建合成的平行手语数据,在ASL、CSL和DGS上,相较于级联方法,在速度和准确性上取得了显著提升。
arXiv:2605.20588v1 公告类型: 新
摘要: 手语翻译领域在手语与口语之间的翻译方面取得了显著进展,但手语之间的翻译仍然在很大程度上未被探索且遥不可及。后者可以帮助全球15亿聋人和听力困难者跨越语言障碍进行交流,而无需依赖听力翻译员或书面语言流畅度。级联方法由独立的手语到文本、文本到文本和文本到手语系统组成,存在错误传播和额外延迟,以及视觉模态特有信息的丢失。我们的目标是开发直接的手语到手语翻译。然而,目前尚未策划出大规模开放域的手语间平行语料库。为了实现手语语句之间的直接翻译,我们使用回译从未对齐的单个语言语句-手语语料库中生成合成的手语-手语对。利用这些数据,我们联合训练一个基于MBART的单一模型,用于文本到手语(T2S)和手语到手语(S2S)。在美式手语(ASL)、中国手语(CSL)和德国手语(DGS)之间的合成生成配对集上,我们的直接S2S方法在几何手语误差指标(DTW对齐的MPJPE降低20%)和将预测的手语语句翻译回句子后的语言匹配指标(BLEU-4提高50%)上优于级联基线,同时实现了大约2.3倍的加速。在一小部分已有的跨语言手语数据上,我们发现所提出的方法也有类似的改进。
查看缓存全文
缓存时间: 2026/05/21 06:33
# 手语之间的直接翻译
来源:https://arxiv.org/html/2605.20588
Zetian Wu Bowen Xie Wuyang Meng Milan Gautam Stefan Lee Liang Huang 俄勒冈州立大学 \{wuzet, xiebo, mengwu, gautammi, leestef, liang\.huang\}@oregonstate\.edu
###### 摘要
手语翻译领域在手语与口语之间的翻译方面取得了显著进展,但手语之间的翻译在很大程度上仍未被探索且难以实现。后者可以帮助全球15亿聋哑及听力障碍(DHH)人士在不依赖听力翻译员或书面语言能力的情况下跨越语言障碍进行交流。级联方法将分别进行手语到文本、文本到文本和文本到手语的系统组合起来,但存在错误传播、额外延迟以及丢失视觉模态特有信息的问题。我们旨在开发直接的手语到手语翻译。然而,目前尚未构建出大型开放域的手语平行语料库。为了实现手语话语之间的直接翻译,我们利用反向翻译从未对齐的单一语言话语-手语语料库中生成合成的手语-手语配对。利用这些数据,我们联合训练一个基于mBART的单一模型,用于文本到手语(T2S)和手语到手语(S2S)。在合成的美国手语(ASL)、中国手语(CSL)和德国手语(DGS)配对集上,我们的直接S2S方法在几何手语误差指标(DTW对齐的MPJPE降低20%)和将预测手语话语翻译回句子后的语言匹配指标(BLEU-4提高50%)上均优于级联基线,同时速度提升约2.3倍。在一小组预先存在的跨语言手语数据上,我们发现我们的方法也有类似的改进。
## 1 引言
来自不同国家的聋哑及听力障碍手语者今天无法直接用他们各自的本土手语进行交流。与口语一样,手语因方言而异:美国手语(ASL)、中国手语(CSL)和德国手语(DGS)彼此无法互通,而全球还有数百种手语在使用中(Yin等人,2021(https://arxiv.org/html/2605.20588#bib.bib5))。这样的对话如今需要通过一串人类翻译员或通过口语的书面文本进行,而口语通常不是手语者的第一语言;这两种方式都会打断手语对话,并丢弃手语对话所依赖的空间语法、分类词谓语和韵律(Yin等人,2021(https://arxiv.org/html/2605.20588#bib.bib5);De Coster等人,2023(https://arxiv.org/html/2605.20588#bib.bib6))。一个直接在两种手语之间进行翻译的系统——输入一位手语者的片段,返回另一种手语的等效片段,无需经过口语文本的绕行——将弥补这一差距(图1(https://arxiv.org/html/2605.20588#S1.F1))。
参见标题图1:直接的手语到手语翻译。给定一种手语(例如CSL)的源片段,我们基于mBART的单一模型生成目标手语(例如ASL)的等效片段,而无需经过书面文本。与级联的S2T→MT→T2S基线相比,直接模型速度提升约2.3倍,且DTW对齐的MPJPE更低。最自然的方式是“级联”:将手语到文本(S2T)模型(Camgöz等人,2018(https://arxiv.org/html/2605.20588#bib.bib12),2020(https://arxiv.org/html/2605.20588#bib.bib13);Lin等人,2023(https://arxiv.org/html/2605.20588#bib.bib14);Yin和Read,2020(https://arxiv.org/html/2605.20588#bib.bib47))与口语机器翻译系统(Liu等人,2020(https://arxiv.org/html/2605.20588#bib.bib18);Costa-jussà等人,2022(https://arxiv.org/html/2605.20588#bib.bib20))以及文本到手语(T2S)生成器(Stoll等人,2018(https://arxiv.org/html/2605.20588#bib.bib9);Saunders等人,2020(https://arxiv.org/html/2605.20588#bib.bib7),2021(https://arxiv.org/html/2605.20588#bib.bib8);Zelinka和Kanis,2020(https://arxiv.org/html/2605.20588#bib.bib10);Zuo等人,2025(https://arxiv.org/html/2605.20588#bib.bib11))串联。这条路线重复使用了经过充分研究的组件,但它累积了三个容易出错阶段的错误,每次查询需运行三个顺序前向传递,并且在构建时忽略了仅通过视觉传递的信息。
直接的手语到手语(S2S)模型将避免所有这三个问题(正如直接“语音到语音翻译”(Jia等人,2019(https://arxiv.org/html/2605.20588#bib.bib25),2022(https://arxiv.org/html/2605.20588#bib.bib26);Rubenstein等人,2023(https://arxiv.org/html/2605.20588#bib.bib27))在口语模态中实现的那样),但它的发展受到缺乏平行S2S数据的阻碍。唯一发表的直接S2S系统来自Inan等人(2025(https://arxiv.org/html/2605.20588#bib.bib1)),他们自动对齐了三个成对语料库(ASL↔CSL,ASL↔DGS,CSL↔DGS),并训练了一个结合Camgöz等人(2020(https://arxiv.org/html/2605.20588#bib.bib13))(编码器)和Saunders等人(2020(https://arxiv.org/html/2605.20588#bib.bib7))(解码器)的模型。他们的工作存在两个主要局限:其平行训练集非常小(在一个方向上最多2.3K个S2S对)且相当嘈杂,导致多个方向上的BLEU-4为0,其他方向最多约为77,使得S2S仍是一个待解的问题。
我们通过将反向翻译(BT)(Sennrich等人,2016(https://arxiv.org/html/2605.20588#bib.bib28);Edunov等人,2018(https://arxiv.org/html/2605.20588#bib.bib29))¹¹¹在本文中,“反向翻译”指的是Sennrich等人(2016(https://arxiv.org/html/2605.20588#bib.bib28))为NMT引入的数据增强技术,而*不是*文本到手语翻译中常见的反向翻译评估协议(Saunders等人,2020(https://arxiv.org/html/2605.20588#bib.bib7))。引入到手语模态,这是神经机器翻译(NMT)中最成功的低资源翻译技术:对于单语语料库中的每个黄金对(文本,手语),我们将文本翻译成另一种口语,将结果输入我们的T2S模型以生成合成的源手语片段,然后将该片段与原始黄金手语作为目标配对——从而产生大规模平行S2S训练语料库(第2节(https://arxiv.org/html/2605.20588#S2))。例如,给定来自How2Sign的英语-ASL对(\(T_{\text{en}},S_{\text{ASL}}\)),我们通过MT将\(T_{\text{en}}\)翻译成中文\(T_{\text{zh}}\),然后使用我们的T2S模型从\(T_{\text{zh}}\)生成合成的CSL片段\(\hat{S}_{\text{CSL}}\);最后,我们将\(\hat{S}_{\text{CSL}},S_{\text{ASL}}\)配对作为CSL→ASL的训练实例。手语侧的反向翻译此前已被用于手语到文本翻译中,以制造额外的注释/文本配对(Zhou等人,2021(https://arxiv.org/html/2605.20588#bib.bib15);Moryossef等人,2021(https://arxiv.org/html/2605.20588#bib.bib32));据我们所知,我们的工作是首次得到平行手语↔手语训练数据的应用。基于Zuo等人(2025(https://arxiv.org/html/2605.20588#bib.bib11))的工作,我们在合成数据上联合训练一个单一的T2S和S2S模型(第3节(https://arxiv.org/html/2605.20588#S3))。
具体来说,本文做出三项主要贡献:
- • 我们通过将反向翻译(Sennrich等人,2016(https://arxiv.org/html/2605.20588#bib.bib28);Edunov等人,2018(https://arxiv.org/html/2605.20588#bib.bib29))引入到手语模态,合成了第一个大规模平行手语↔手语训练语料库:T2S模型从翻译后的文本中产生合成的源片段,我们将这些片段与来自单语手语语料库的黄金目标片段配对(第2节(https://arxiv.org/html/2605.20588#S2))。
- • Inan等人(2025(https://arxiv.org/html/2605.20588#bib.bib1))的跨语言测试对是自动对齐的,并且根据他们自己的报告是嘈杂的;我们使用LLM判断器和Sentence-BERT(Reimers和Gurevych,2019(https://arxiv.org/html/2605.20588#bib.bib34))提取了一个更严格的子集,以产生更有意义的基准(第4节(https://arxiv.org/html/2605.20588#S4))。
- • 我们的直接S2S模型在之前唯一发布的跨语言手语↔手语基准的每个方向上均显著优于Inan等人(2025(https://arxiv.org/html/2605.20588#bib.bib1)),并且在我们严格的子集上进行的评估中,在每部分DTW对齐的MPJPE上优于级联的S2T→MT→T2S链,速度约为级联的2.3倍(第5节(https://arxiv.org/html/2605.20588#S5))。
## 2 通过反向翻译产生的合成手语到手语语料库
缺乏自然的平行手语↔手语语料库使得无法对S2S进行直接的监督训练。我们通过将标准的反向翻译方法(Sennrich等人,2016(https://arxiv.org/html/2605.20588#bib.bib28);Edunov等人,2018(https://arxiv.org/html/2605.20588#bib.bib29))从文本MT引入到手语模态,并将我们的T2S模型视为合成源生成器,来弥补这一差距(图2(https://arxiv.org/html/2605.20588#S2.F2))。我们首先回顾NMT中的反向翻译(第2.1节(https://arxiv.org/html/2605.20588#S2.SS1)),然后描述我们如何将其实例化以用于跨语言S2S训练(第2.2节(https://arxiv.org/html/2605.20588#S2.SS2)),并报告结果语料库的统计数据(第2.3节(https://arxiv.org/html/2605.20588#S2.SS3))。
参见标题图2:反向翻译:NMT和手语并列。(a) 第2.1节(https://arxiv.org/html/2605.20588#S2.SS1)中介绍的标准NMT反向翻译(Sennrich等人,2016(https://arxiv.org/html/2605.20588#bib.bib28))。(b) 第2.2节(https://arxiv.org/html/2605.20588#S2.SS2)中介绍的我们的跨语言手语反向翻译。
### 2.1 预备知识:神经机器翻译中的反向翻译
神经机器翻译需要大型平行语料库,然而对于大多数语言对,只有一侧有丰富的文本(Liu等人,2020(https://arxiv.org/html/2605.20588#bib.bib18);Costa-jussà等人,2022(https://arxiv.org/html/2605.20588#bib.bib20))。Sennrich等人(2016(https://arxiv.org/html/2605.20588#bib.bib28))引入了反向翻译(BT)来利用这种不对称性。给定一个待改进的前向模型\(f:\mathcal{X}\to\mathcal{Y}\)和一个已有的反向模型\(g:\mathcal{Y}\to\mathcal{X}\),我们从目标语言语料库中抽取单语句子\(y\),运行\(\hat{x}=g(y)\)以得到合成源句子,并将\((\hat{x},y)\)作为\(f\)的额外训练对(图2(https://arxiv.org/html/2605.20588#S2.F2)(a))。前向损失是根据黄金目标\(y\)计算的,因此合成源\(\hat{x}\)上的噪声是有限的:模型学习从噪声输入中恢复干净的目标,而不是模仿噪声监督信号。Edunov等人(2018(https://arxiv.org/html/2605.20588#bib.bib29))随后表明,该技术可扩展到数亿单语句子,并持续改善低资源方向,使BT成为低资源NMT系统的默认组成部分。因此,BT只需要(i)目标侧单语语料库和(ii)可用的反向模型——这两者我们都在下面的手语模态中实例化了。
### 2.2 跨语言手语反向翻译
#### 设置。
对于每种手语\(s \in \{ASL, CSL, DGS\}\),现有语料库\(C_s\)提供对齐的(文本,手语)对\((x_{l(s)}, z_s)\),其中\(l(s)\)是相应的口语:How2Sign(Duarte等人,2021(https://arxiv.org/html/2605.20588#bib.bib16))提供(en, ASL)对,CSL-Daily(Zhou等人,2021(https://arxiv.org/html/2605.20588#bib.bib15))提供(zh, CSL)对,Phoenix-2014T(Camgöz等人,2018(https://arxiv.org/html/2605.20588#bib.bib12))提供(de, DGS)对。然而,没有语料库大规模提供两种不同手语\(s\)和\(s'\)之间的平行数据\((z_s, z_{s'})\)。我们的目标是构建这些跨语言对\((\hat{z}_s, z_{s'})\)——语言\(s\)的合成源手语与语言\(s'\)的黄金目标手语配对——涵盖所有六个有序方向\(s \to s'\),其中\(s \neq s'\)。
#### 过程。
对于每个黄金对\((x_{l(s')}, z_{s'}) \in C_{s'}\)和每个期望的源手语\(s\),我们分三个阶段合成源片段(图2(https://arxiv.org/html/2605.20588#S2.F2)(b)):
1. 口语机器翻译。将黄金文本\(x_{l(s')}\)从口语\(l(s')\)翻译成口语\(l(s)\),即\(x_{l(s)} = M_{l(s') \to l(s)}(x_{l(s')})\),使用TranslateGemma 4B(Finkelstein等人,2026(https://arxiv.org/html/2605.20588#bib.bib21))作为现成的MT系统\(M\)。
2. 手语合成。通过T2S模型生成源手语标记,\(\hat{z}_s = \mathrm{T2S}(x_{l(s)})\),使用与推理时相同的解码配置,以使训练和推理分布匹配。
3. 配对。形成S2S训练实例\((\hat{z}_s, z_{s'})\)——合成源,黄金目标。
这种构造保留了使BT有效的关键特性:监督信号\(z_{s'}\)是黄金的,因此合成源上的噪声仅塑造了模型学习的条件分布,而不会作为监督目标出现。²²²等价地:源噪声会影响我们学习\(p(z_{s'} \mid \hat{z}_s)\)中的哪个,但每个损失值都是针对干净目标计算的。
我们的流程与标准NMT BT(Sennrich等人,2016(https://arxiv.org/html/2605.20588#bib.bib28))有一个不同之处:两种手语之间的桥梁通过它们对应的口语而不是直接的手语到手语反向模型,因为不存在这样的反向模型。这个绕行丢弃了源侧的纯手语信息,但BT仍然适用,因为黄金目标\(z_{s'}\)不受影响,且高资源口语之间的翻译已相对成熟(Costa-jussà等人,2022(https://arxiv.org/html/2605.20588#bib.bib20))。它也与先前的手语侧BT不同,先前的BT在手语到文本翻译中用于在单个手语-口语对中制造额外的手语/文本对(Zhou等人,2021(https://arxiv.org/html/2605.20588#bib.bib15);Moryossef等人,2021(https://arxiv.org/html/2605.20588#bib.bib32));我们的使用是跨语言的,合成源和黄金目标在两种*不同*的手语中,从而为直接S2S生成平行手语↔手语训练数据——据我们所知,这是一个此前未被解决的设置。
### 2.3 构建的手语到手语训练语料库
将第2.2节(https://arxiv.org/html/2605.20588#S2.SS2)的过程应用于所有三个语料库,得到一个覆盖\(\{ASL, CSL, DGS\}\)上六个有序方向的S2S训练语料库。每个黄金语料库\(C_{s'}\)为两个方向贡献配对。表1(https://arxiv.org/html/2605.20588#S2.T1)报告了每个方向的配对数量。相似文章
SignX:在紧凑且富含姿态的潜在空间中进行连续手语识别
SignX提出了一种用于连续手语识别的新框架,该框架将异构姿态格式统一到紧凑的潜在空间中,并在像素空间基线基础上实现50倍计算加速,同时达到最先进的准确率。
手语对话中的情感识别
本文介绍了用于手语对话情感识别的eJSL Dialog数据集,填补了现有数据集缺乏对话上下文的空白。基准测试表明,应用通用多模态模型时存在领域差距,凸显了针对手语的上下文感知视觉提取器的必要性。
德国手语童话故事的情感分析
一篇研究论文,介绍了德国手语(DGS)童话故事情感分析的数据集和基于XGBoost的模型。该模型使用MediaPipe提取的面部和身体运动特征,实现了63.1%的平衡准确率,证明了面部和身体动作在手语情感传达中的重要性。
扩散应进入语言模型的何处?几何引导的隐藏状态替换
本文提出DiHAL,一种扩散-变换器混合模型,利用基于几何的代理选择预训练语言模型中的某个层,通过扩散桥进行隐藏状态替换,通过避免直接的词元恢复来改进连续扩散语言建模。
DuDi:基于跨语言词语化器的双信号蒸馏方法
DuDi 是一个双信号多语言蒸馏框架,结合序列级与词元级信号以及跨语言词语化器,旨在提升小型语言模型在东南亚语言上的表现。在 SEA-HELM 上的实验表明,DuDi 在多个模型系列和规模设置下均能持续超越具有竞争力的蒸馏基线方法。