强化学习激发对未见语言的语境翻译学习
摘要
本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - 强化学习激发未见语言的上下文翻译
来源:https://huggingface.co/papers/2606.06428
摘要
强化学习方法使大语言模型能够通过利用上下文中的语言知识(而非记忆特定语言)来翻译未见语言。
先前研究表明,大语言模型(https://huggingface.co/papers?q=large%20language%20models,LLMs)可以通过持续训练甚至在其上下文中编码语法书来翻译未见或低资源语言。然而,这两种方法通常过度拟合特定语言,在测试时仅具有有限的零样本迁移能力。为了规模化翻译极低资源语言,我们认为 LLM 必须掌握利用上下文语言知识的元技能,而非记忆特定语言。在本文中,我们提出了一种基于强化学习的无见语言翻译方法,在丰富的语言上下文中,使用表面级翻译指标 chrF 作为奖励。实验表明,尽管奖励信号简单,但经过 RL 训练的模型能有效提取并应用给定上下文中的相关语言信息,从而在完全未见语言上取得比上下文学习或有监督微调更好的翻译效果。我们的分析表明,基于结果的 RL 可以超越数学和编码等传统推理任务,成为从上下文中学习语言的通用方案。
查看 arXiv 页面(https://arxiv.org/abs/2606.06428)查看 PDF(https://arxiv.org/pdf/2606.06428)GitHub2(https://github.com/hanxuhu/rl-new-language)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06428)
在你的 agent 中获取此论文:
hf papers read 2606\.06428
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型(0)
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.06428 以从此页面链接。
引用此论文的数据集(1)
HanxuHU/rl-new-language 查看器•大约 2 小时前更新 • 135k • 71(https://huggingface.co/datasets/HanxuHU/rl-new-language)
引用此论文的 Space(0)
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.06428 以从此页面链接。
包含此论文的收藏集(1)
相似文章
自巩固语言模型:从上下文中持续整合知识
本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。
在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
利用自生成数据的中期训练提升语言模型中的强化学习
本文提出在强化学习之前,对语言模型进行基于自生成多样化推理轨迹的中期训练,通过让模型接触多种有效的解题方法,展示了在数学基准测试上强化学习性能的提升。
Translate-R1:基于强化学习的成本感知翻译工具使用
Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。