利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译
摘要
# 利用可验证奖励强化学习激励参数知识用于跨文化实体翻译 来源:[https://arxiv.org/html/2604.16881](https://arxiv.org/html/2604.16881) Jiang Zhou1, Xiaohu Zhao2, Xinwei Wu1, Tianyu Dong1, Hao Wang2, Yangyang Liu2, Heng Liu2, Linlong Xu2, Longyue Wang2, Weihua Luo2, Deyi Xiong1† 1天津大学 TJUNLP 实验室,中国 2阿里巴巴集团,中国 [dyxiong@tju\.edu\.cn](https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘
查看缓存全文
缓存时间: 2026/04/21 07:04
# 通过可验证奖励强化学习激励跨文化实体翻译中的参数知识 来源:https://arxiv.org/html/2604.16881 Jiang Zhou¹, Xiaohu Zhao², Xinwei Wu¹, Tianyu Dong¹, Hao Wang², Yangyang Liu², Heng Liu², Linlong Xu², Longyue Wang², Weihua Luo², Deyi Xiong¹† ¹中国天津大学 TJUNLP 实验室 ²阿里巴巴集团中国 [email protected] (https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘要 跨文化实体翻译对大语言模型(LLMs)而言仍具挑战性,模型通常倾向于逐字或音译,而非在上下文中给出符合文化语境的准确翻译。然而,相关文化知识可能在大规模预训练阶段已被编码至模型参数中。为激励模型有效利用这些参数知识,我们提出了 **EA-RLVR**(基于可验证奖励的实体锚定强化学习),这是一种不依赖外部知识库、旨在优化跨文化实体翻译的训练框架。EA-RLVR 以可验证的实体级奖励信号作为监督基准,并引入轻量级结构门控以稳定优化过程。该设计引导模型学习稳健的推理流程,而非仅仅模仿参考译文。我们在 XC-Translate 上评估了 EA-RLVR,观察到实体翻译准确率与域外泛化能力均获得持续提升。具体而言,仅在 7k 样本上进行训练,即可使 Qwen3-14B 在包含大量完全未见实体的 50k 测试集上的实体翻译准确率从 23.66% 提升至 31.87%。所学得的实体翻译能力还可迁移至通用翻译任务,在 WMT24pp 上带来 +1.35 的 XCOMET 提升,延长优化后可达 +1.59。通过对 pass@k 动态变化及奖励构建方式的深入分析,我们将上述性能提升归因于更优的采样效率与更稳定的优化态势。 Incentivizing Parametric Knowledge via Reinforcement Learning with Verifiable Rewards for Cross-Cultural Entity Translation Jiang Zhou¹, Xiaohu Zhao², Xinwei Wu¹, Tianyu Dong¹, Hao Wang², Yangyang Liu², Heng Liu², Linlong Xu², Longyue Wang², Weihua Luo², Deyi Xiong¹† ¹TJUNLP Lab, Tianjin University, China ²Alibaba Group, China [email protected] (https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ††footnotetext:†Corresponding Author.††footnotetext:## 1 引言 Refer to caption **Figure 1**: (左)实体翻译准确率 (%) 随 pass@k 的变化曲线表明,基础模型已具备潜在知识(在较大 k 值时准确率高),而 EA-RLVR 能在 k=1 时有效激活该知识。(右)跨文化实体翻译挑战示意图。 机器翻译的核心宗旨在于让具有文化属性的文本在不同语言间得以无障碍传播。尽管多语言大语言模型已取得显著进展(Pan et al., 2025a (https://arxiv.org/html/2604.16881#bib.bib22)),但在翻译高度依赖文化背景实体的场景下(如书籍、电影、地点、歌曲和习语等),现有系统往往难以达成这一目标(Yao et al., 2024 (https://arxiv.org/html/2604.16881#bib.bib55))。此类场景中,生成准确且符合文化惯例的译文需要在上下文中识别出所指代的真实世界实体,并匹配目标文化中的约定俗成名称(Moghee et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib60))。近期评测表明,即便顶尖的商业闭源 LLMs 也常默认采用逐字直译或拼音转写,这类译文语法正确但语境语义不当,反而扭曲或掩盖了原文的本意(Conia et al., 2024 (https://arxiv.org/html/2604.16881#bib.bib2))。为弥补这一缺陷,业界广泛采用的折中方案是为翻译系统挂载外部知识库,例如通过网络检索、知识图谱或精心编纂的数据库获取信息(Conia et al., 2024 (https://arxiv.org/html/2604.16881#bib.bib2); Khandelwal et al., (https://arxiv.org/html/2604.16881#bib.bib59))。当相关数据被成功检索时,这些方法确实能提升准确率。然而,它们同时也引入了实际与结构上的限制。此类系统的表现极度依赖任务与底层数据库的对齐程度(Agarwal et al., 2023 (https://arxiv.org/html/2604.16881#bib.bib57)),且实践中通常需要针对特定任务训练或微调检索器(Wang et al., 2025b (https://arxiv.org/html/2604.16881#bib.bib3))。此外,这本质上将瓶颈从“上下文实体推理”转移到了“外部知识源的结构与覆盖率”,导致翻译质量受制于能否检索到所需内容。 另一方面,由于在跨领域、跨语言的万亿级 token 语料上接受过训练,LLMs 隐式地编码了大量实体对应关系、文化典故及现实使用惯例(Yang et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib38); Qwen et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib58))。原则上,此类知识应足以支撑跨文化翻译。如图 1 (https://arxiv.org/html/2604.16881#S1.F1)(左)所示,正确的文化实体通常已存在于基础模型的概率分布中,这在多次采样尝试(pass@128)中获得高准确率的表现中得到了证实。然而,在标准单遍生成(pass@1)过程中,这种知识实际上难以被调用。因此,模型经常退化为直接复制原文或进行字面翻译,从而掩盖本意,例如保留源语言词汇或将歌名直译为医学手册(图 1 (https://arxiv.org/html/2604.16881#S1.F1),右)。这些现象表明,核心难点并非知识匮乏,而是缺乏有效的激励机制,促使模型以贴合上下文的方式显式调用这些知识。 为激励 LLMs 高效利用参数知识,我们提出 **EA-RLVR**(基于可验证奖励的实体锚定强化学习),这是一个完全由规则驱动且奖励机制可自动验证的跨文化实体翻译框架。我们将跨文化实体翻译建模为序列决策问题:给定源句,模型生成候选译文,并由确定性验证器评估输出是否正确表达了目标文化实体。模型不再模仿参考译文,而是从分配给自身轨迹的可验证奖励中学习,从而强化产生正确实体的推理路径。具体而言,EA-RLVR 采用基于预测实体与黄金实体集之间归一化子串匹配的**实体匹配奖励**。为稳定优化过程并减少退化行为,我们还引入了**结构门控**,根据轻量级的输出约束(如指定的推理格式与翻译长度)调节奖励权重。该设计避免了需要额外计算且易在长程 RL 中遭受奖励黑客攻击(reward hacking)的神经奖励模型,同时也解决了我们的一项实证发现:即现有的神经指标无法为符合文化背景的实体选择提供有效监督。结合这些可验证奖励与高效的无 Critic 策略优化算法,EA-RLVR 建立了一套适用于跨文化实体翻译的稳定 RLVR 训练框架。 我们进行了广泛的实验来评估 EA-RLVR,得出了关于其有效性及底层机制的三个关键洞察:(1) **EA-RLVR 能够有效激励参数知识。** 仅使用 7k 个样本进行训练,即可在训练时完全未见的 50k 测试集上实现泛化,使不同规模模型的实体翻译准确率提升 8.21%–9.06%。(2) **所学策略的效果超越实体翻译本身。** 在 WMT24pp 上,我们的模型实现了 +1.25–1.35 的 XCOMET 分数提升,尽管训练过程中从未将 XCOMET 用作监督信号。当扩大训练数据至全量数据集并将优化步数延长至 1000 步时,增益进一步增至 +1.59–1.68 分。(3) **深入分析揭示了学习动态。** pass@k 评估、神经奖励对比、跨语言泛化测试以及对奖励黑客行为的排查均指向同一规律:我们的方法提升了采样效率并催生了稳定、符合跨文化习惯的翻译策略,而非鼓励死记硬背。 本文的主要贡献如下:(1) 提出了一种基于 RLVR 的新型跨文化机器翻译框架,证明无需访问外部数据库,仅通过直接激励上下文适配的实体选择即可改善实体翻译效果。(2) 实证表明该方法在不同语言与模型规模下均能提升实体翻译准确率与通用翻译质量,包括涉及全新未见实体的场景。(3) 提供了深入的机理分析,解释了性能提升背后的工作原理。 Refer to caption **Figure 2**: EA-RLVR 框架:策略模型首先 rollout 一条同时包含推理与翻译的轨迹。该完整轨迹需先通过两个结构门控(格式与长度)才有资格获得基础奖励(0.2 reward, $R=0.2$)。最后,若译文包含正确实体,则额外获得匹配加成(+1 reward, $R=1.2$),该标量奖励最终驱动策略梯度更新。 ## 2 相关工作 ### 跨文化与实体中心机器翻译 前期工作主要借助两条路径应对文化背景实体翻译的挑战:整合外部知识与针对性数据增强。基于检索的方法明确将翻译锚定于外部来源,利用多语言知识图谱(如 KG-MT; Conia et al., 2024 (https://arxiv.org/html/2604.16881#bib.bib2))或文档存储库(如 RAG-trans; Wang et al., 2025b (https://arxiv.org/html/2604.16881#bib.bib3))来解决实体歧义问题。尽管这些方法能有效缓解幻觉现象,但它们引入了对辅助数据库可用性与质量的强依赖。在训练层面,近期研究通过合成代码混合或实体替换数据进行去噪预训练(Hu et al., 2022 (https://arxiv.org/html/2604.16881#bib.bib5); Lian et al., 2024 (https://arxiv.org/html/2604.16881#bib.bib6)),或通过联合优化翻译与实体对齐任务(Rikters and Miwa, 2024 (https://arxiv.org/html/2604.16881#bib.bib7))来提升实体的鲁棒性。语言感知的参数迁移方法进一步促进了跨语言的知识共享(Dong et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib20))。与这些方法不同,EA-RLVR 在测试时不需要外部检索,也不依赖复杂的数据合成流水线。相反,我们将实体翻译视为推理问题,运用 RLVR 技术激活并稳定预训练模型中已有的参数知识。 ### RLVR 与翻译中的推理 近期的大语言模型后训练范式利用带可验证奖励的强化学习(RLVR)来激发推理能力(Lambert et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib8); DeepSeek-AI et al., 2026 (https://arxiv.org/html/2604.16881#bib.bib9))。理论上,这一过程被视为通过提升采样效率来激活基础模型中固有的潜在知识(Yue et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib39); Huang et al., 2026 (https://arxiv.org/html/2604.16881#bib.bib29); Dai et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib27); Yang et al., 2026 (https://arxiv.org/html/2604.16881#bib.bib19); Jin et al., 2025 (https://arxiv.org/html/2604.16881#bib.bib24))。在机器翻译领域,近期的探索积极引入推理能力,例如利用多智能体框架构建长思维链轨迹用于蒸馏(Wang et al., 2025a (https://arxiv.org/html/2604.16881#bib.bib45)),或利用 LLM 裁判与神经质量指标的反馈来指导优化(Feng et al., 2025a (https://arxiv.org/html/2604.16881#bib.bib40); Wang et al., 2025c (https://arxiv.org/html/2604.16881#bib.bib46); Feng et al., 2025b (https://arxiv.org/html/2604.16881#bib.bib44))。作为对上述进展的补充,EA-RLVR 引入了一种截然不同的范式,其核心是严格的基于规则的、可自动验证的奖励机制。我们将文化实体翻译视为一项精确的推理任务,利用确定性奖励直接唤醒参数知识,从而为蒸馏或神经目标函数提供了一种替代方案。 ## 3 方法 我们提出了 **EA-RLVR**(基于可验证奖励的实体锚定强化学习),该框架旨在激励 LLMs 在不依赖外部知识的情况下,精准锚定翻译过程中的文化实体。如图 2 (https://arxiv.org/html/2604.16881#S1.F2) 所示,我们的方法将跨文化翻译视为通过强化学习优化的序列决策过程。如图 2 (https://arxiv.org/html/2604.16881#S1.F2) 所示,该框架包含三个核心组件:(1) **感知推理的策略模型(Reasoning-aware policy)**:在生成最终译文前先推导出思考轨迹,以便模型唤醒潜在知识;(2) **可验证奖励机制(Verifiable reward mechanism)**:以确定性的实体匹配为核心监督信号,并通过结构门控进行保护以防止奖励黑客攻击;(3) **无 Critic 的优化算法(Critic-free optimization algorithm)**:利用序列级别的似然比率来稳定训练过程。在接下来的章节中,我们将详细阐述任务定义 (§3.1 (https://arxiv.org/html/2604.16881#S3.SS1))、奖励设计 (§3.2 (https://arxiv.org/html/2604.16881#S3.SS2)) 以及策略优化目标 (§3.3 (https://arxiv.org/html/2604.16881#S3.SS3))。 ### 3.1 任务定义 给定源句子 $x$,我们的目标是生成目标语言译文 $y^{\text{trans}}$,使其在上下文中准确呈现文化背景实体。我们将自回归 LLM 视为输出词元的随机策略 $\pi_\theta$,即 $\pi_\theta(y|x) = \prod_{t=1}^{|y|} \pi_\theta(y_t | x, y_{<t})$。 #### 推理与翻译分段 遵循近期基于推理的后训练方法(DeepSeek-AI et al., 2026 (https://arxiv.org/html/2604.16881#bib.bib9)),我们鼓励模型在输出最终译文前生成一段包含在 `<think>` 和 `</think>` 标签内的推理轨迹。当回复格式合法时,我们将输出 $y$ 分解为 $y = \langle \texttt{<think>} \rangle y^{\text{think}} \langle \texttt{</think>} \rangle y^{\text{trans}}$,其中 $y^{\text{think}}$ 包含推理 deliberation,$y^{\text{trans}}$ 为最终译文。由于推理部分可能包含探索性的候选实体而非模型最终决策,所有基于内容的评估将 exclusively 应用于 $y^{\text{trans}}$。 ### 3.2 跨文化实体翻译的稳定且可验证的奖励设计 我们的主要设计目标是构建一个满足以下条件的奖励函数:(i) *可验证*,即无需学习的奖励模型,仅凭数据标注即可验证;(ii) 直接与跨文化实体正确性*对齐*;(iii) 在策略优化过程中保持*稳定*,且具有抗奖励黑客攻击的鲁棒性。 #### 归一化实体匹配 每个样本均标注了一组可接受的目标实体集合 $\mathcal{G}(x)$,该集合源自 Wikidata 的同名字段。此举旨在捕获合法的变体形式,最大限度降低假阴性率(即模型预测了合法实体表面形式但因细微差
相似文章
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
通过一致性驱动的强化学习提升跨语言事实召回
本文介绍了PolyFact,一个大规模多语言事实问答数据集,并展示了通过GRPO的强化学习相比监督微调能显著提升LLM的跨语言事实一致性,通过重组多语言表示。
面向长程语言智能体可验证强化学习的策略条件化反事实信用
提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。
Translate-R1:基于强化学习的成本感知翻译工具使用
Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。