并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进

arXiv cs.CL 论文

摘要

# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c

arXiv:2604.16937v1 发布类型:新 摘要:基于翻译的提示方法在多语言大语言模型(LLMs)中被广泛使用,但其有效性因语言和任务而异。我们在十种不同资源等级的语言及四个基准测试上对多种提示策略进行了评估。分析结果表明,并不存在一种放之四海而皆优的策略。即使翻译质量尚存瑕疵,翻译手段仍能为低资源语言带来显著助益,而高资源语言从中获益甚微;此外,基于提示的自路由机制的表现亦逊于显式翻译。受此启发,我们将提示策略的选择建模为一种可学习的决策问题,并引入轻量级分类器来预测针对每个具体样本,是采用原生提示还是翻译提示更为适宜。该分类器在四个基准测试上均较固定策略取得了统计学意义上的显著提升,且能够有效泛化至训练阶段未曾出现的新任务格式。进一步的分析揭示,语言资源等级才是决定翻译是否有效的主导因素,而非仅仅取决于翻译质量本身。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:05

# 无一适用:从固定提示到多语言大模型中的学习路由
Source: https://arxiv.org/html/2604.16937
Wei-Chi Wuα\alpha Sheng-Lun Weiα\alpha Hen-Hsen Huangβ\beta Hsin-Hsi Chenα\alphaγ\gamma  
α\alpha台湾大学电脑科学与工程学系,台湾  
β\beta中央研究院信息科学研究所,台湾  
γ\gamma台湾大学AI研究中心(AINTU),台湾  
[email protected], [email protected], [email protected], [email protected]

###### 摘要

基于翻译的提示策略在多语言大语言模型(LLMs)中被广泛使用,但其有效性因语言和任务而异。我们在涵盖不同资源水平的十种语言和四个基准测试上评估了多种提示策略。分析表明,不存在普遍适用的单一最优策略。即使翻译质量并不完美,翻译策略也能显著惠及低资源语言;高资源语言从中获益甚微;而基于提示的自我路由策略表现不如显式翻译。受此启发,我们将提示策略选择形式化为一个学习型决策问题,并引入轻量级分类器来预测针对每个具体实例,原生提示与翻译提示何者更优。该分类器在四个基准测试上均实现了相较于固定策略的统计显著性提升,且能泛化至训练阶段未见过的任务格式。进一步分析表明,决定翻译是否有益的核心因素是语言资源水平,而非单纯的翻译质量。

## 1 引言

基于翻译的提示策略(即在推理前将输入翻译为英语)是多语言大语言模型(LLMs)中广泛采用的策略,通常能通过利用以英语为中心的强大能力来提升性能(Ghosh et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib21))。然而,近期研究表明这种优势并非普适的。在植根于文化的任务(Tam et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib38); Nyandwi et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib22))以及具有较低英语偏见(Liu et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib20))的模型上,原生语言提示的表现可能优于基于翻译的方法。这些发现挑战了“翻译成英语总是有益的”这一假设,引出了一个根本性问题:何时应采用翻译,何时原生语言提示更佳?

前期工作主要集中在改进单一的提示范式,而非理解或选择合适的范式。诸如 QAlign(Zhu et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib15))和 mCoT(Lai and Nissim (2024) (https://arxiv.org/html/2604.16937#bib.bib16))等方法增强了基于翻译的提示,而 Strategic CoT(Wang et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib32))改进了原生语言推理。然而,这些方法隐式地假设提示策略是固定的,并未将策略选择视为取决于语言-任务对的决策问题。

这一空白催生了三个研究问题。(RQ1)是否存在适用于所有语言和任务的单一提示策略?通过对多样语言和任务进行系统对比,我们发现没有任何单一策略能始终占据优势。基于翻译的提示有利于低资源语言,但对高资源语言的增益有限甚至没有;而基于提示的自我路由仅带来边际改善,且表现不及显式翻译。(RQ2)能否通过学习来选择提示策略?我们将策略选择形式化为学习型决策问题,并引入一个轻量级分类器,用于预测对于给定的语言-任务对,简单的原生语言提示还是翻译提示更为有效。因此,该轻量级分类器在各类模型和任务格式上均稳定优于孤立策略。(RQ3)为何翻译主要惠及低资源语言?我们表明,翻译的有效性更多受语言资源水平的驱动,而非仅仅依赖翻译质量。当翻译质量尚不完美的情况下,学习的选择器仍倾向于为低资源语言选择翻译。总之,我们的贡献有三:1)我们开展了一项系统的实证研究,证明不存在适用于所有语言和任务的通用提示策略;2)我们引入了面向决策的学习提示策略选择框架;3)我们提供了深入分析,揭示了语言资源水平在确定何时采用翻译提示时的核心作用。

表1:使用 Llama3.3-70B 在 Global-MMLU 上,六种提示策略在十种语言上的准确率(%)。按资源水平将语言分为高(ZH, ES, DE, HI)、中(BN, ID, KO)和低(SI, SW, YO)。

## 2 相关工作

#### 基于翻译的提示
由于预训练阶段英语的主导地位,英语思维链(Chain-of-Thought)推理通常优于原生方法(Liu et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib39); Kowta et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib14))。近期方法通过问题对齐(Zhu et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib15))、多语言 CoT 推理(Lai and Nissim (2024) (https://arxiv.org/html/2604.16937#bib.bib16))以及小数据集指令微调(Shaham et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib18))来改善这一问题。翻译效果与质量呈正相关,因为低质量翻译会损害性能(Liu et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib20))。

#### 局限性与替代方案
翻译在植根于文化的任务(Tam et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib38); Nyandwi et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib22))、具有降低英语偏见的模型(Liu et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib20))以及特定任务结构(Huang et al. (2023) (https://arxiv.org/html/2604.16937#bib.bib24); Intrator et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib19))中会失效。替代方案包括 Strategic CoT(Wang et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib32))和 Selective Translation(Kowta et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib14); Mondshine et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib2); Paulet al. (2025) (https://arxiv.org/html/2604.16937#bib.bib41))。我们通过学习在策略间进行选择,发现语言资源水平和响应特征(而非仅翻译质量)才是决定最优性的关键。

## 3 实验设置

#### 数据集与语言
我们主要在 Global-MMLU(Singh et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib1))上进行评估,按资源水平将语言分为高(中文/ZH, 西班牙语/ES, 德语/DE, 印地语/HI)、中(孟加拉语/BN, 印尼语/ID, 韩语/KO)和低(僧伽罗语/SI, 斯瓦希里语/SW, 约鲁巴语/YO)。对于策略选择,我们使用包含平衡语言覆盖率的 10% 训练集,并在剩余的 90% 上进行评估。泛化能力在 MMLU-ProX(Xuan et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib3))及不同任务格式的域外基准上进行评估:XQuAD(Artetxe et al. (2020) (https://arxiv.org/html/2604.16937#bib.bib34))、mCSQA(Sakai et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib5))和 XCOPA(Pontiet al. (2020) (https://arxiv.org/html/2604.16937#bib.bib4))。

#### 提示策略
我们比较了零样本原生提示和基于翻译的提示策略,包括 Native、Translate、Sel-Trans(Mondshine et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib2))、Strategic CoT(原生及英文版)(Wang et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib32))以及 Prompt-Routing。提示模板及详细信息见附录 A.2 (https://arxiv.org/html/2604.16937#A1.SS2)。

#### 模型
实验使用 DeepSeek-v3.1(DeepSeek-AI (2024) (https://arxiv.org/html/2604.16937#bib.bib33))进行,并在 Llama-3.3-70B-Instruct(AI@Meta (2024) (https://arxiv.org/html/2604.16937#bib.bib36))上进行了额外的策略选择实验。所有模型均用于零样本推理。

#### 学习策略选择
我们将策略选择形式化为在 Native 和 Translate 之间的二元决策。当且仅当其中一种策略回答正确时分配训练标签;模糊案例被丢弃。我们使用捕获原生与翻译输入及响应差异的特征训练轻量级分类器(XGBoost(Chen and Guestrin (2016) (https://arxiv.org/html/2604.16937#bib.bib35)), MLP(Haykin (1994) (https://arxiv.org/html/2604.16937#bib.bib44)))。细节见附录 B.1 (https://arxiv.org/html/2604.16937#A2.SS1)。

#### 特征工程
对于每个实例,我们分别运行 NATIVE 和 TRANSLATE 以获得响应 $r_n$ 和 $r_t$,然后提取反映两者差异的四类特征:(1)元数据,(2)问题级别,(3)响应级别,(4)对齐程度。相同的跨语言无关管道统一应用于所有实例。完整的特征定义见附录 B.2 (https://arxiv.org/html/2604.16937#A2.SS2)。

表2:DeepSeek-v3.1 在域内(绿色)和域外(橙色)基准上的结果。最佳结果加粗显示;Oracle 标记上限,即 Native 或 Translate 至少有一种成功的情况。空白单元格表示相应基准数据集未覆盖的语言,详见表8 (https://arxiv.org/html/2604.16937#A3.T8)。

## 4 RQ1:是否存在适用于所有情况的单一策略?

基于前期质疑翻译提示普适性的发现,我们考察是否有任何单一提示策略能在不同语言和任务中持续优于其他策略,这违背了“一刀切”的假设。表1 (https://arxiv.org/html/2604.16937#S1.T1)揭示了三个关键发现。首先,没有单一策略占绝对优势:虽然 SCoT-Trans 取得了最高平均分(83.97%),但 Sel-Trans 在3种语言(ZH, KO, YO)上胜出,Translate 在其他5种语言(HI, ID, KO, SI, SW)上领先。其次,资源水平可预测策略有效性:低资源语言一致偏向翻译(SI/SW/YO 较原生提示提升 5.5%~18.8%),而高资源语言呈现相反趋势(增幅 <1%)。韩语呈现出极端案例,策略间差距达 49.9%,暗示其在训练中严重缺乏代表性。第三,基于提示的策略选择失败:Prompt-Routing(82.8%)表现逊于简单的 Translate(84.0%),这表明有效的策略选择需要从模式中学习,而非依赖模型自我评估。

## 5 RQ2:我们能学会如何选择吗?

### 5.1 问题形式化
对于语言 $\ell$ 中的每个问题 $q$,我们分别使用 Native($r_n$)和 Translate($r_t$)策略生成响应。我们的目标是训练一个二分类器 $f(q, r_n, r_t) \rightarrow \{0, 1\}$ 来预测哪种策略能给出正确答案,其中 0 选择 Native,1 选择 Translate。

### 5.2 实验结果
表2 (https://arxiv.org/html/2604.16937#S3.T2)报告了 XGBoost 分类器在 DeepSeek-v3.1 上各基准的表现。DeepSeek-v3.1 和 Llama-3.3-70B 的完整结果见附录 B.4 (https://arxiv.org/html/2604.16937#A2.SS4)。

#### 域内性能
在 Global-MMLU 测试集上,Classifier 达到 82.3% 的准确率,优于 Translate(+0.6%)并大幅超越 Native(+9.8%)。该分类器在所有语言上捕捉到了稳定的性能提升,尤其在 YO 语言上提升最为显著(较最佳基线提升 2.1%)。在 MMLU-ProX 上,收益依然持续(较最佳基线约 +0.2%),展现了对难度增加的鲁棒性。

#### 域外泛化
尽管仅在多项选择题上训练,分类器仍能泛化至不同任务格式。在 XQuAD(抽取式问答)上达到 87.6%(较最佳基线 +0.5%)。在 XCOPA(因果推理)上,性能达到 95.7%(+0.4%)。即使在 mCSQA 的困难样本上,分类器也显示出适度提升(33.8% vs 33.4%)。

表3:DeepSeek-v3.1 和 Llama-3.3-70B 上 XGBoost 与 MLP 分类器的最重要 3 个特征组及其重要性得分(%)。参考图1说明:
图1:DeepSeek-v3.1 上 XGBoost 分类器的 Translate 选择率(%)。
#### 统计显著性
我们使用 Wilcoxon 符号秩检验(Wilcoxon (1945) (https://arxiv.org/html/2604.16937#bib.bib26))评估显著性。在两种模型的所有语言-数据集对中,XGBoost 均显著优于两个基线($p<0.001$),MLP 达到 $p<0.05$。这证明了学习策略选择的统计稳健性。详细计算公式与结果见附录 C (https://arxiv.org/html/2604.16937#A3)。

### 5.3 特征重要性分析
为进一步了解路由决策的驱动因素,我们分析了分类器的特征重要性。表3 (https://arxiv.org/html/2604.16937#S5.T3)显示,词重叠特征在各种设置下始终占据主导地位,表明分类器主要依赖原生与翻译响应间的语义对齐差异。这正是基于提示的自我路由无法获取的特征。PROMPT_ROUTING 依赖模型的自我评估,缺乏量化响应级差异和特征的能力。这解释了为何 PROMPT_ROUTING(82.8%)表现不及 TRANSLATE(84.0%),而配备这些特征的 learned classifier 则能稳定优于两种固定策略。

### 5.4 策略选择分析
图1 (https://arxiv.org/html/2604.16937#S5.F1)显示,分类器的 Translate 选择率与语言资源水平强相关:相对高资源语言(ZH, ES, DE, HI, ID)表现出均衡的选择率(40%-70%,随任务变化),而相对较低资源语言(KO, SI, YO)则 heavily favor Translate。这与先前的预期相悖,先前研究表明翻译低资源语言会导致低翻译质量(Koehn and Knowles (2017) (https://arxiv.org/html/2604.16937#bib.bib12); Team et al. (2022) (https://arxiv.org/html/2604.16937#bib.bib37); Shu et al. (2024) (https://arxiv.org/html/2604.16937#bib.bib43))并损害性能(Liu et al. (2025) (https://arxiv.org/html/2604.16937#bib.bib20))。因此,我们将在 RQ3(§6 (https://arxiv.org/html/2604.16937#S6))中进一步探讨这一关系。完整的翻译率热力图见附录 D.1 (https://arxiv.org/html/2604.16937#A4.SS1)。

表4:Global-MMLU 上基于 XGBoost 分类器的 chrF 翻译质量分析。低质量 bin(底部 30%)即便精度较低,仍显示较高的 Translate 选择率。高质量 bin(顶部 40%)显示精度提升但翻译选择率较低。

## 6 RQ3:为何低资源语言偏爱翻译?

我们开展此项分析以探讨语言资源水平、

相似文章

CLewR:用于机器翻译偏好学习的课程学习与重启策略

arXiv cs.CL

CLewR引入了一种带重启的课程学习策略,用于通过偏好优化改进LLM的机器翻译性能。该方法通过多次迭代简易到困难的课程来解决灾难性遗忘问题,在Gemma2、Qwen2.5和Llama3.1模型上展现了一致的性能提升。

多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架

arXiv cs.CL

本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。

自监督提示优化

Papers with Code Trending

本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。