通过多格式训练提升语言模型的跨格式鲁棒性

arXiv cs.CL 论文

摘要

本文介绍了FormatMix,一种多格式训练方法,通过将部分训练项扩展为多个等效格式来提升LLM在不同答案格式间的一致性,表明格式多样性是鲁棒性的关键。

arXiv:2606.11643v1 Announce Type: new 摘要:大型语言模型通常对答案格式敏感:一种格式下正确解答的问题,在另一种语义等价的格式下可能失败。为了研究这一差距,我们将跨格式鲁棒性定义为模型在不同格式下一致回答同一潜在问题的程度。然后,我们比较了全格式训练与FormatMix(仅使用随机或针对性选择将部分训练项扩展为多个等效格式)。在GLM4和Llama-3.1上,多格式监督持续提升了任务性能和跨格式鲁棒性,而仅使用选择题(MCQ)监督几乎没有带来好处,甚至可能降低鲁棒性。我们进一步发现,仅将训练集中约30%的项扩展到多种格式,往往能恢复全格式训练的大部分收益,并且这一效果在我们研究的模型系列和规模中均存在。这些结果表明,格式多样性(而非仅仅额外的监督)是鲁棒性的关键驱动因素。这种轻量级的多格式增强是一种实用方法,可以在不改变基础模型的情况下降低LLM对答案格式的敏感度。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:40

# 提升语言模型跨格式鲁棒性的多格式训练方法
来源: https://arxiv.org/html/2606.11643

June M\. Liu1, Shaomian Zheng1, He Cao2, Dingnan Jin1, Qing Cui1, Jun Zhou1

1蚂蚁集团, 2国际数字经济学院 (IDEA)

###### 摘要

大型语言模型通常对答案格式仍然敏感:一个问题以一种格式正确解答,但可能无法在另一种语义等价的格式中解答。为了研究这一差距,我们将跨格式鲁棒性定义为模型在不同格式下一致回答同一基础问题的程度。然后,我们比较了全格式训练和FormatMix,后者仅将部分训练项扩展为多种等价格式,采用随机或针对性选择。在GLM4和Llama-3.1上,多格式监督始终能提升任务性能和跨格式鲁棒性,而仅使用多项选择题(MCQ)监督则收效甚微,甚至可能降低鲁棒性。我们进一步发现,仅将约30%的训练集扩展为多种格式,通常就能恢复全格式训练的大部分收益,这一效果在我们研究的模型系列和大小的范围内均有体现。这些结果表明,格式多样性(而非仅仅额外的监督)是鲁棒性的关键驱动因素。这种轻量级的多格式增强是一种实用的方法,可以在不改变基础模型的情况下降低LLM对答案格式的敏感性。

提升语言模型跨格式鲁棒性的多格式训练方法

June M\. Liu1††thanks:工作完成于蚂蚁集团实习期间, Shaomian Zheng1, He Cao2, Dingnan Jin1, Qing Cui1, Jun Zhou1††thanks:通讯作者。邮箱:jun\.zhoujun@antgroup\.com (https://arxiv.org/html/2606.11643v1/mailto:[email protected])1蚂蚁集团, 2国际数字经济学院 (IDEA)

## 1 引言

多项选择题(MCQ)回答是大型语言模型(LLM)的标准基准,但MCQ准确率混淆了两个因素:模型是否拥有相关知识,以及模型是否能在特定问题格式下运用这些知识。最近的研究表明,LLM对答案选项、选项呈现方式和输出格式很敏感,常常对同一个基础问题在多项选择和生成式设定中给出不同答案(Liet al\.,2024b (https://arxiv.org/html/2606.11643#bib.bib17); Balepuret al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib8); Wanget al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib18); Balepuret al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib30); Nguyenet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib1); Takizawaet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib2))。这不仅关乎基准设计。在实际使用中,问题很少以多项选择题的形式出现;用户提出的是开放性问题、验证陈述或补全缺失信息。因此,一个答案高度依赖格式的模型不仅难以评估,而且难以信赖。

参见图注Figure 1:语义匹配问题的跨格式不一致性。(a) 六个基准测试中,同一基础问题在四种问题格式下的准确率。(b) 条件迁移准确率:在以源格式正确回答的题目中,能以目标格式正确回答的比例。本文研究了*问题格式鲁棒性*:模型能否在不同格式下一致地回答语义等价的问题。为了直接测试这一点,我们构建了一个受控的多格式设定。从每个原始MCQ题目出发,我们构建了语义匹配的是非题(TF)、填空题(FIB)和开放式问题(OPEN)版本,每种格式包含多个释义,并通过自动过滤和人工标注进行验证。这种设计在仅改变问题格式的同时,保持了底层内容固定。它使得一个简单的诊断性问题成为可能:如果模型以一种格式正确回答了一个题目,这种正确性是否会迁移到其他格式?图1 (https://arxiv.org/html/2606.11643#S1.F1)显示,答案通常是否定的。在不同格式和基准之间,准确率差异很大,而且以一种格式解答的题目经常在另一种格式中出错。

大多数先前的工作从评估角度处理这一现象,例如,通过调整MCQ评分、扰动答案选项或改进答案匹配(Cavalinet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib19); Chandaket al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib9))。这些方法对于获得更可靠的测量是宝贵的,但它们并未直接改善模型在以MCQ形式之外呈现相同内容时的行为。我们采用了互补的视角:问题格式敏感性也是一个*训练*问题。本文的核心问题是,多格式监督能否使知识访问在语义等价的问题格式之间更具鲁棒性。

为了回答这个问题,我们从几个广泛使用的MCQ基准出发,构建了一个多格式问答语料库,并引入了一个题目级别的评估协议,将*任意格式可解性*与*全格式一致性*分离开来。具体而言,pass@4\mathrm{pass}@4衡量一个题目在四种格式中是否至少有一种被正确回答,而pass4\mathrm{pass}^{4}衡量它是否在全部四种格式中都被正确回答。它们的比率则捕捉了在题目可解前提下的鲁棒性。然后,我们将标准的仅MCQ微调与多格式监督微调进行比较。除了将每个训练题目进行全格式扩展外,我们还研究了有预算的设定,即只重新格式化部分题目,通过随机选择或根据观察到的跨格式不一致性进行优先排序。

我们的实验显示了一个清晰的模式。多格式监督显著提升了跨格式鲁棒性,而匹配规模的仅MCQ训练主要提高了MCQ准确率,但几乎未改变全格式一致性。在GLM4-9B上,全多格式SFT将pass4\mathrm{pass}^{4}从12.08%提升至19.61%,并相对于基线将鲁棒性提高了35%。此外,仅扩展部分题目就能恢复大部分收益,并且在相同扩展预算下,基于不一致性的选择比随机选择更有效。这些结果提供了一个实用的经验:格式鲁棒性是一种可训练的能力,而且无需详尽重写整个训练集就能获得其中的大部分。我们的贡献有三点:

- •我们将问题格式敏感性重新定义为*鲁棒知识访问*的问题,并构建了一个经过验证的多格式问答语料库,包含语义匹配的多选题、是非题、填空题和开放式问题版本。
- •我们引入了一个基于pass@4\mathrm{pass}@4、pass4\mathrm{pass}^{4}及其比率的题目级跨格式鲁棒性评估协议,将整体可解性与格式间一致性分离开来。
- •我们展示了多格式SFT在跨格式鲁棒性上显著优于仅MCQ训练,并且部分、针对不一致性的格式扩展能恢复全多格式监督的大部分益处。

## 2 相关工作

与我们研究最相关的前期工作分为三条主线:问答格式下评估可靠性的研究、模型对问题格式和提示变化的敏感性研究,以及作为语义保持问题的问题改写研究。

### 2.1 跨问答格式的评估可靠性

多项选择题评估易于评分,但其结果可能反映答案集伪影和评分惯例,而不仅仅是知识本身。先前的研究表明,模型可以利用选项集本身,MCQ和长文本形式通常探测不同的行为,并且在MCQ中的成功有时相当于选择最不错误的选项,而不是识别唯一正确的答案(Balepuret al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib8); Liet al\.,2024b (https://arxiv.org/html/2606.11643#bib.bib17); Wanget al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib18))。因此,一些研究提出了一致性感知评分、改变答案选项或改进提取协议,以获得更可靠的模型能力估计(Cavalinet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib19); Molfeseet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib5); Balepuret al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib30); Góralet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib6))。超越MCQ可以减少选项引发的捷径,开放式问题或答案匹配协议有时能更好地与人类判断对齐(Myrzakhanet al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib7); Chandaket al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib9); Bernardet al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib21))。然而,这又将问题转移到了答案评分上:基于LLM的判断器可能有偏见、容易受到对抗性攻击且自身不一致(Shiet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib22); Rainaet al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib23); Bavarescoet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib24); Haldar and Hockenmaier,2025 (https://arxiv.org/html/2606.11643#bib.bib27))。总体而言,这些研究表明,评估不仅取决于问题内容,还取决于响应格式和评分程序。

### 2.2 格式敏感性与鲁棒性

除了答案集伪影,另一项研究探讨语义等价的提示和输出约束是否会产生稳定的模型行为。Nguyen等人展示了LLM偏向于特定的输出格式,Takizawa等人引入了MCQFormatBench来研究MCQ家族内变体的鲁棒性(Nguyenet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib1); Takizawaet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib2))。更广泛地说,提示敏感性和压力测试研究表明,措辞上的微小变化可能导致显著的性能变化(Huaet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib28); Zhaoet al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib3))。类似的非稳定性也在释义一致性、价值负载问题以及依赖于表面相似性的知识表示中被观察到(Mooreet al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib29); Halleret al\.,2025 (https://arxiv.org/html/2606.11643#bib.bib4))。机制分析进一步表明,答案符号预测本身可能对用于引发响应的表面形式敏感(Wiegreffeet al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib10))。我们的工作建立在这些文献的基础上,但在两个方面有所不同。首先,我们在一个受控的题目对齐设定中研究格式敏感性,通过比较同一问题的语义匹配的MCQ、是非题、填空题和开放式问题版本。其次,我们不仅仅将不一致性视为一个诊断或评估问题,而是探究是否可以通过多格式监督来减少不一致性。

### 2.3 问题改写

构建跨格式的对齐变体与问题改写密切相关。CANARD(Elgoharyet al\.,2019 (https://arxiv.org/html/2606.11643#bib.bib20))将问题改写确立为一个语义保持问题,后续工作(Fuet al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib25); Yeet al\.,2022 (https://arxiv.org/html/2606.11643#bib.bib26))表明,改写后的问题在可回答性、一致性和难度上可能因使用的变换不同而有所差异。这些发现需要对改写的质量和人类验证进行仔细过滤,以防止意义或难度的变化混淆下游比较。与先前专注于改写质量的工作不同,我们将改写视为一种受控工具来研究跨格式鲁棒性,并测试多格式监督是否有助于对底层知识的访问。

参见图注Figure 2:所提出框架的概述。从源多项选择题开始,我们通过多阶段改写和验证,构建四种格式(MCQ、TF、FIB和OPEN)的语义对齐变体。然后,使用基于pass@4、pass4和鲁棒性的题目级跨格式协议评估模型,并比较不同的多格式监督策略。

## 3 数据构建

我们分四个阶段构建一个题目对齐的多格式问答语料库。我们从6个MCQ基准开始,筛选可重格式化题目,仅保留那些能够被忠实转换为非MCQ格式并可以自动评分的题目。然后,我们以原始语言生成语义对齐的多选题、是非题、填空题和开放式问题变体,每种格式3个释义,随后进行基于模型的审查和仲裁。在分层子集上进行人工验证。所有训练/测试划分在改写前以源题目级别定义,以确保同一题目的任何变体不会跨划分出现。

### 3.1 源基准

我们从六个广泛使用的基准中收集源MCQ题目:C-Eval(Huanget al\.,2023 (https://arxiv.org/html/2606.11643#bib.bib15))、CMMLU(Liet al\.,2024a (https://arxiv.org/html/2606.11643#bib.bib16))、MMLU(Hendryckset al\.,2020 (https://arxiv.org/html/2606.11643#bib.bib11))、MMLU-Pro(Wanget al\.,2024 (https://arxiv.org/html/2606.11643#bib.bib12))、GPQA(Reinet al\.,2023 (https://arxiv.org/html/2606.11643#bib.bib14))和SuperGPQA(Duet al\.,2026 (https://arxiv.org/html/2606.11643#bib.bib13))。这些基准涵盖广泛的领域、语言和难度级别,使其成为构建题目对齐多格式问答语料库的合适源池。我们在改写前以源题目级别划分数据,以便同一基础题目的所有格式变体和释义都保留在同一个划分中。

### 3.2 可重格式化筛选

由于并非所有MCQ题目都能被忠实地转换为其他问题格式——有些题目的答案高度依赖于选项的存在,而其他格式下则可能变得模棱两可或难以评分——我们首先进行可重格式化筛选步骤。对于每个源题目,由四个LLM独立评估其是否适合多格式改写:DeepSeek-V3.1(DeepSeek-AI,2024 (https://arxiv.org/html/2606.11643#bib.bib31))、Qwen3-235B-A22B-Instruct-2507(Qwen Team,2025 (https://arxiv.org/html/2606.11643#bib.bib32))、Kimi-K2.5(Kimi Teamet al\.,2026 (https://arxiv.org/html/2606.11643#bib.bib33))和GPT-OSS-120B(OpenAI,2025 (https://arxiv.org/html/2606.11643#bib.bib34))。我们仅保留至少三个模型在严格准则下(侧重于答案唯一性、选项独立性和自动可评分性)都认可的题目。完整的筛选提示见附录3 (https://arxiv.org/html/2606.11643#A1.F3)。

### 3.3 多格式改写

对于每个保留的源题目,我们构建四种格式的语义对齐变体:MCQ、是非题(TF)、填空题(FIB)和开放式问题(OPEN)。我们保留原始基准的源语言,并以temperature=1.0=1.0和top-p=0.95p=0.95生成每种格式的三个释义。为了减少对任何单一模型家族的依赖,我们采用了一种受Gaoet al. (2025 (https://arxiv.org/html/2606.11643#bib.bib36))启发的多模型生成、审查和仲裁流程。具体而言,我们使用筛选阶段使用的同一个四模型池。对于每个生成实例,我们从此池中随机选择一个模型作为改写器。改写旨在保留基础事实内容和黄金标准答案。

相似文章

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

面向模态异质性下的鲁棒联邦多模态图学习

arXiv cs.LG

本文提出FedMPO,一种鲁棒的联邦多模态图学习方法,通过拓扑感知的跨模态生成、缺失感知的专家路由和可靠性感知的聚合来解决模态异质性和缺失模态问题,在多个数据集上实现了性能提升。

语言模型难以实现概念整合

arXiv cs.CL

本文研究了大型语言模型中的 compartmentalization(概念隔离)现象,即模型未能跨同一概念的不同表示共享统计强度,导致样本效率和模型容量降低。作者在多语言和多格式场景中验证了这一现象,并表明合成平行数据无法完全解决此问题。