强化学习激发对未见语言的语境翻译学习

Hugging Face Daily Papers 论文

摘要

本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。

先前的研究表明,大型语言模型(LLMs)可以通过持续训练或在上下文中编码语法书来翻译未见过的语言或低资源语言。然而,这两种方法通常会在特定语言上过拟合,在测试时零样本迁移能力有限。为了大规模翻译极低资源语言,我们认为LLMs必须掌握利用上下文语言知识的元技能,而不是记忆特定语言。在本文中,我们提出了一种强化学习(RL)方法来翻译具有丰富语言上下文的未见语言,使用表面级别的翻译指标(chrF)作为奖励。实验表明,尽管奖励较轻量,但我们经过RL训练的模型能有效提取并应用提供的上下文中的相关语言信息,从而在完全未见过的语言上取得比上下文学习或监督微调更好的翻译效果。我们的分析表明,基于结果的RL可以扩展到数学和编码等传统推理任务之外,作为从上下文中学习语言的一种方法。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - 强化学习激发未见语言的上下文翻译

来源:https://huggingface.co/papers/2606.06428

摘要

强化学习方法使大语言模型能够通过利用上下文中的语言知识(而非记忆特定语言)来翻译未见语言。

先前研究表明,大语言模型(https://huggingface.co/papers?q=large%20language%20models,LLMs)可以通过持续训练甚至在其上下文中编码语法书来翻译未见或低资源语言。然而,这两种方法通常过度拟合特定语言,在测试时仅具有有限的零样本迁移能力。为了规模化翻译极低资源语言,我们认为 LLM 必须掌握利用上下文语言知识的元技能,而非记忆特定语言。在本文中,我们提出了一种基于强化学习的无见语言翻译方法,在丰富的语言上下文中,使用表面级翻译指标 chrF 作为奖励。实验表明,尽管奖励信号简单,但经过 RL 训练的模型能有效提取并应用给定上下文中的相关语言信息,从而在完全未见语言上取得比上下文学习或有监督微调更好的翻译效果。我们的分析表明,基于结果的 RL 可以超越数学和编码等传统推理任务,成为从上下文中学习语言的通用方案。

查看 arXiv 页面(https://arxiv.org/abs/2606.06428)查看 PDF(https://arxiv.org/pdf/2606.06428)GitHub2(https://github.com/hanxuhu/rl-new-language)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06428)

在你的 agent 中获取此论文:

hf papers read 2606\.06428

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型(0)

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.06428 以从此页面链接。

引用此论文的数据集(1)

HanxuHU/rl-new-language 查看器•大约 2 小时前更新 • 135k • 71(https://huggingface.co/datasets/HanxuHU/rl-new-language)

引用此论文的 Space(0)

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.06428 以从此页面链接。

包含此论文的收藏集(1)

相似文章

自巩固语言模型:从上下文中持续整合知识

arXiv cs.CL

本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。

Translate-R1:基于强化学习的成本感知翻译工具使用

arXiv cs.CL

Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。