G^2C-MT:基于图引导的文档级机器翻译上下文选择

arXiv cs.CL 论文

摘要

提出了G²C-MT,一种基于图引导的文档级机器翻译上下文选择框架,通过轻量级话语图和深度偏置随机游走来建模结构化话语依赖关系,在多个大语言模型上超越基线。

arXiv:2606.03078v1 公告类型:新 摘要:有效的文档级机器翻译(DocMT)需要捕捉长距离的话语依赖关系。近期工作探索了基于检索和话语感知的上下文选择。然而,这些方法往往缺乏在文档中远距离段落之间建模结构化话语依赖关系的显式机制。本文提出G^2C-MT(基于图引导的机器翻译上下文),将DocMT上下文选择视为轻量级话语图上的结构化路径发现问题,而非检索非结构化上下文集合或依赖昂贵的大语言模型话语建模。具体地,我们将每个段落表示为一个节点,并考虑其语义相似性、邻接性和关键词重叠来建模每对节点之间的关系。此外,我们提出在图上进行深度偏置的随机游走,为每个目标段落采样一个后向上下文路径。该上下文路径将用于提示大语言模型进行翻译。该框架自然地支持多路径上下文采样,通过聚合语篇歧义输入的不同翻译候选来提高鲁棒性。跨多个领域的实验表明,G^2C-MT在多个大语言模型上超越了强基线,包括DeepSeek-V3、Gemini-2.5-Flash-lite和Qwen-2.5/3系列。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:36

# G2C-MT: 面向文档级机器翻译的图引导上下文选择 来源:https://arxiv.org/html/2606.03078 Zixuan Zhou\*、Xiangyu Duan\*、Yu Liu、Longbo Sun、Rupu Wei、Bohong Zhao 苏州大学计算机科学与技术学院、携程集团 cocaer\.cl@gmail\.com、zxzhou1213@stu\.suda\.edu\.cn、xyduan@suda\.edu\.cn、\{liu\.yub、lbsun、rpwei、bohongzhao\}@trip\.com

###### 摘要 有效的文档级机器翻译(DocMT)需要捕捉长距离的语篇依赖。最近的研究探索了基于检索和感知语篇的上下文选择方法。然而,这些方法通常缺乏明确的机制来建模文档中远距离段落之间的结构化语篇依赖。在本文中,我们提出 G2C-MT(图引导的机器翻译上下文),该方法将 DocMT 上下文选择视为轻量级语篇图上的结构化路径发现问题,而不是检索非结构化的上下文集或依赖昂贵的基于 LLM 的语篇建模。具体来说,我们将每个段落表示为一个节点,并建模每对节点之间的关系,考虑它们的语义相似性、相邻性和关键词重叠。此外,我们在图上提出一种深度偏置随机游走,为每个目标段落采样一条后向上下文路径。该上下文路径将用于提示大语言模型(LLM)进行翻译。该框架自然支持多路径上下文采样,通过聚合针对语篇歧义输入的多样翻译候选,可以提高鲁棒性。跨多个领域的实验表明,G2C-MT 在多种 LLM(包括 DeepSeek-V3、Gemini-2.5-Flash-lite 以及 Qwen-2.5/3 系列)上优于强基线。

**阶段 1:有向语篇图构建**  
x1, x2, x3, x4, x5  
序列 (β)、语义 (α)、关键词 (γ)  
wij = αS_sem + βS_seq + γS_key

**阶段 2:深度偏置路径上下文采样**  
x1, x2, x3, x4, x5  
φ(x3)=2  
x1, x3  
P(v_next|v) ∝ w · (φ(v_next)+1)^λ  
路径: x5 → x3 → x1

**阶段 3:基于路径的上下文生成**  
提示构建 (I5):  
指令 I  
上下文: (x1, y1)  
上下文: (x3, y3)  
输入: x5  
LLM M ⇒ y5

**图 1:G2C-MT 框架概览。** 该过程包含三个阶段:(1) 构建考虑语义 (α)、序列 (β) 和关键词 (γ) 凝聚力的语篇图;(2) 通过深度偏置随机游走(从目标回溯到历史)遍历上下文路径,其中深度潜力 φ 更高的节点(例如 x3)和边得分吸引游走者;(3) 将路径格式化为用于翻译的结构化提示。

## 1 引言

高质量的文档级机器翻译不仅要求准确的句子级翻译,还需要保留语篇现象,包括词汇一致性和指代消解。因此,捕捉长距离依赖至关重要。尽管近期 LLM 的进展在处理长上下文方面取得了成功(Liu 等,2023;Chen 等,2023;Gao 等,2025),但一次性翻译整个文档往往会导致句子遗漏或上下文稀释等问题(Wang 等,2025)。此外,将整个文档上下文暴露给模型效率低下,因为 LLM 的解码成本随输入文本长度呈二次增长。为了解决这个问题,最近的研究采用了基于检索和基于图的策略来选择先前翻译的段落作为上下文。基于检索的方法根据语义相似性选择历史翻译,以缓解长距离依赖(Wang 等,2025)。然而,这些方法往往无法保留显式的语篇结构,因为它们将句子视为非结构化集合。类似地,现有的基于图的方法依赖于通过基于 LLM 的关系分类来定义昂贵的边关系,并且通常仅限于选择一阶邻居作为历史上下文(Dutta 等,2025;Pham 等,2025)。这种限制阻止它们捕捉定义全局文档结构的深层多跳语篇路径。

为了克服上述问题,我们提出 G2C-MT,一种新颖的图引导机器翻译上下文框架。与孤立地检索句子或依赖昂贵的图构建过程不同,我们使用轻量级图构建过程将文档的语篇结构建模为加权有向无环图(DAG)。具体来说,每个段落作为一个节点,边表示段落之间的关系。这些关系通过融合得分进行量化,该得分源自语义相似性、序列相邻性和词汇重叠。这种丰富的度量使我们的框架能够将文档建模为具有复杂语义关系的图,而不是简单的线性链。基于构建的语篇图,我们采用图驱动的方法动态选择文档级翻译的历史上下文。具体来说,当翻译一个目标段落时,我们从相应节点开始执行后向且偏置的随机游走。然后,我们识别一条相关的上下文路径,该路径由先前的段落及其翻译组成。与以往将上下文限制为直接邻居的方法不同(Dutta 等,2025),我们用两个互补信号引导遍历:编码语义和词汇相关性的局部边权重,以及鼓励遍历能够生成更长更丰富语篇链的节点的全局信号。这种设计使模型能够选择一条单一的、结构化的上下文路径,捕捉长距离、非线性的依赖,同时保持计算效率。选定的路径随后被格式化为感知语篇的提示,使模型能够利用结构化的上下文信息,而无需处理整个文本。此外,由于遍历是概率性的而非确定性的,G2C-MT 自然支持多路径采样。通过探索多条合理的语篇路径并聚合生成的翻译,该框架可以在语篇级别歧义的情况下提高鲁棒性。

我们的主要贡献如下:

*   我们提出 G2C-MT,一个新颖的框架,将文档上下文建模为 DAG,可以通过轻量级方式构建。该图通过建模语义和序列相关性,有效地捕捉非线性语篇依赖。
*   我们设计了一种偏置随机游走机制,明确偏好包含更丰富语篇信息的深层上下文路径。同时,这种概率性遍历天然支持多路径采样,可以在目标段落涉及语篇歧义时增强鲁棒性。
*   我们使用不同规模的 LLM 在各种文档级翻译基准上进行了大量实验。我们的方法在翻译质量和连贯性方面均优于强基线。进一步的分析证实了我们基于图引导的方法在捕捉长距离依赖方面的有效性。

## 2 方法论

如图 1 和算法 1 所示,我们方法的总体流程可分为以下三个阶段:

1.  **有向语篇图构建**,将每个段落视为节点,并基于段落之间多维相关性构建边。
2.  **深度偏置上下文采样**,一个随机过程,用于回溯先前翻译的段落,并偏好更深的上下文路径。
3.  **基于路径的上下文生成**,将这些上下文路径格式化为语篇信息,以提示 LLM。

### 2.1 有向语篇图构建

我们首先将源文档 \(D = \{x_1, x_2, \dots, x_N\}\) 建模为加权有向无环图 \(G = (V, E)\)。有向边 \(e_{ij}\) 连接目标节点 \(v_i\) 到先前的节点 \(v_j\),其中 \(j < i\)。这意味着我们只在图中引入从当前节点指向其过去节点的边。这样定义有两个好处:(1) 在翻译第 \(i\) 步时,未来的信息(\(k > j\))是不可得的,这与人类逐句翻译文档的方式一致。(2) 这种有向边的定义也可以避免环状图的出现,从而降低遍历时的复杂度。

边 \(e_{ij}\) 的权重 \(w_{ij}\) 量化了段落 \(x_j\) 与 \(x_i\) 的相关性,由三个语篇相关因素的融合计算得出:

\[
w_{ij} = \alpha \cdot S_{\text{sem}}(i,j) + \beta \cdot S_{\text{seq}}(i,j) + \gamma \cdot S_{\text{key}}(i,j),
\tag{1}
\]

其中 \(\alpha\)、\(\beta\) 和 \(\gamma\) 是系数,总和为1以平衡各因素。具体定义如下:

##### 语义相关性 (\(S_{\text{sem}}\))。

全局连贯性依赖于主题一致性。我们通过预训练嵌入模型将每个段落 \(x_i\) 映射到一个稠密向量空间,记为 \(\mathbf{h}_i\)。然后计算这些向量之间的余弦相似度。为了防止图过于稠密并引入额外噪声,我们引入阈值 \(\tau_{\text{sem}}\) 来截断低相关性的边:

\[
S_{\text{sem}}(i,j) = \max\left(0, \frac{\mathbf{h}_i^{\top} \mathbf{h}_j}{\|\mathbf{h}_i\| \|\mathbf{h}_j\|} - \tau_{\text{sem}}\right)
\tag{2}
\]

##### 序列相邻性 (\(S_{\text{seq}}\))。

正在翻译的段落与其相邻段落最为相关。例如,在对话问卷或背景介绍中,相邻上下文信息对于指代消解和保持逻辑连贯性至关重要。因此,自然引入一条相邻边并赋予固定权重:

\[
S_{\text{seq}}(i,j) = \mathbb{I}(j = i - 1)
\tag{3}
\]

其中 \(\mathbb{I}(\cdot)\) 是指示函数。这保证了局部上下文始终被视作一个候选。

##### 关键词重叠 (\(S_{\text{key}}\))。

基于语义的检索可能会遗漏一些包含重叠关键词但语义相似度低的段落。这些遗漏可能导致术语翻译不一致,例如一些专有名词。我们通过引入关键词重叠的 \(S_{\text{key}}(i,j)\) 来缓解这个问题。具体来说,\(\mathcal{K}_i\) 表示通过 TF-IDF 从 \(x_i\) 中提取的前 \(K\) 个关键词的集合。然后,我们通过关键字重叠的程度计算词汇得分:

\[
S_{\text{key}}(i,j) = \sum_{t \in \mathcal{K}_{ij}} \frac{\psi(t, x_i) + \psi(t, x_j)}{2}
\tag{4}
\]

其中 \(\mathcal{K}_{ij} = \mathcal{K}_i \cap \mathcal{K}_j\) 表示关键词的交集,\(\psi(t, x)\) 表示术语 \(t\) 在段落 \(x\) 中的 TF-IDF 分数。

### 2.2 深度偏置上下文路径采样

一旦语篇图构建完成,我们可以从给定的目标段落 \(x_i\) 开始回溯上下文路径。回溯策略也很重要。最直接的方法是贪心搜索,总是选择权重最高的邻居节点。然而,我们发现这种方法有时会过早终止,或者倾向于选择某些具有特定边类型的节点(例如反复遍历语义高度相似的边),导致冗余。为了解决这个问题,我们提出一种采样策略来平衡边相关性与上下文路径的深度,以利用全局结构信息。

#### 2.2.1 深度启发式

我们引入**深度启发式**的概念来估计上下文节点的信息丰富度。深度启发式 \(\phi(v_j)\) 表示从节点 \(v_j\) 回溯的最长路径。我们认为这个回溯深度代表从给定节点 \(v_i\) 可以提供多少历史翻译上下文。具体来说,我们可以通过动态规划高效地计算 \(\phi(v_j)\)。

\[
\phi(v_j) = 1 + \max_{v_k \in \mathcal{B}(v_j)} \phi(v_k)
\tag{5}
\]

其中 \(\phi(v_{\text{start}}) = 1\),\(\mathcal{B}(v_j)\) 表示 \(v_j\) 的后向邻居集合。

#### 2.2.2 概率采样

我们应用随机游走机制进行上下文选择,以构建路径 \(\mathcal{P}_i = (v_{p_1}, v_{p_2}, \dots, v_{p_L})\),从目标 \(v_{p_1} = v_i\) 开始。给定当前节点 \(v_{\text{curr}}\),游走者转移到先前节点 \(v_{\text{next}}\),该节点从上面定义的邻域 \(\mathcal{N}(v_{\text{curr}})\) 中采样。转移概率如下:

\[
P(v_{\text{next}} \mid v_{\text{curr}}) = \frac{w_{\text{curr},\text{next}} \cdot (\phi(v_{\text{next}}) + 1)^\lambda}{Z}
\tag{6}
\]

其中 \(Z\) 是归一化的配分函数,项 \((\phi(v_{\text{next}}) + 1)^\lambda\) 引入了对深层结构的偏置。超参数 \(\lambda \ge 0\) 影响深度偏置的强度。当 \(\lambda = 0\) 时,遍历过程退化为基于边权重的标准随机游走。增加 \(\lambda\) 将偏好具有更高深度的节点,从而鼓励检索长距离上下文。

### 2.3 基于路径的上下文生成

完成遍历后,我们可以利用这个采样的语篇路径 \(\mathcal{P}_i\) 来通过提示 LLM 进行上下文学习。我们反转路径以恢复自然文档顺序,最终提示 \(I_i\) 构建如下:

\[
I_i = \mathcal{I} \oplus [(x_{p_L}, y_{p_L}) \oplus \dots \oplus (x_{p_2}, y_{p_2})] \oplus x_i
\tag{7}
\]

其中 \(\mathcal{I}\) 表示翻译指令,\(\oplus\) 表示字符串拼接。元组 \((x_k, y_k)\) 表示先前源段落及其对应于节点 \(v_k\) 的翻译。

##### 多路径采样。

由于我们的方法基于随机游走,每次遍历可以产生不同的上下文路径。我们可以为目标段落 \(x_i\) 采样 \(K\) 条独立的上下文路径 \(\{\mathcal{P}_i^{(1)}, \dots, \mathcal{P}_i^{(K)}\}\),然后相应地生成 \(K\) 个候选翻译 \(\{y_i^{(1)}, \dots, y_i^{(K)}\}\)。最终翻译可以通过多数投票机制或选择困惑度最低的候选来确定。在本文中,我们通过 k-means 对 \(K\) 个候选进行聚类,并选择最接近聚类中心的代表性候选,这也被证明是一种简单而有效的策略。

##### 复杂度分析。

图构建的时间成本主要在于嵌入计算和 TF-IDF 关键词匹配,导致总体时间复杂度为 \(O(N^2)\)。实际上,这是一次性成本(<<10 秒),对翻译效率影响较小。

相似文章

多层次上下文Token关系建模用于机器生成文本检测

arXiv cs.CL

本文提出了一种用于机器生成文本检测的多层次上下文Token关系建模框架,融合局部马尔可夫信息校准与全局规则支撑推理,以低计算开销提升跨大语言模型和跨领域场景下的检测性能。

GiLT:利用依存图增强Transformer语言模型

arXiv cs.CL

论文提出了GiLT(Graph-Infused Layers Transformer Language Model),它通过在token预测过程中增量构建的依存图特征来调整注意力权重,从而改善句法泛化能力,在保持竞争性困惑度的同时超越基线模型。

多智能体LLM校准的反事实图

arXiv cs.CL

本文介绍了CAGE,一种基于反事实图的多智能体LLM系统校准方法,在TriviaQA和MMLU-Pro等基准测试上进行了评估,涵盖了多种通信拓扑结构。该方法优于现有的事后校准和LLM引导校准方法。