标签
# 利用可验证奖励强化学习激励参数知识用于跨文化实体翻译 来源:[https://arxiv.org/html/2604.16881](https://arxiv.org/html/2604.16881) Jiang Zhou1, Xiaohu Zhao2, Xinwei Wu1, Tianyu Dong1, Hao Wang2, Yangyang Liu2, Heng Liu2, Linlong Xu2, Longyue Wang2, Weihua Luo2, Deyi Xiong1† 1天津大学 TJUNLP 实验室,中国 2阿里巴巴集团,中国 [dyxiong@tju\.edu\.cn](https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘