SAGE：用于 LLM 知识评估的可扩展自动化鲁棒性增强

arXiv cs.CL 2026/05/13 04:00 论文

摘要

本文介绍了 SAGE，这是一个用于 LLM 知识评估基准测试的可扩展自动化鲁棒性增强框架。该框架使用经过强化学习微调的小模型，以低于现有方法的成本生成和验证问题变体。

arXiv:2605.12022v1 公告类型：新文章摘要：大型语言模型（LLMs）在标准知识评估基准上表现优异，但近期研究表明，在测试相同知识但形式不同的问题变体下，其知识能力仍然脆弱。因此，对现有知识评估基准进行鲁棒性增强是必要的。然而，目前的 LLM 辅助“生成-验证”流程成本高昂且难以扩展，原因在于变体生成产出率低以及变体验证不可靠。我们提出了 SAGE（Scalable Automated Generation of Robustness BEnchmarks，可扩展自动化鲁棒性基准生成），这是一个使用微调小模型对知识评估基准进行可扩展鲁棒性增强的框架。SAGE 包含 VariantQual，这是一个基于人工标注种子数据训练的基于评分标准的验证器；以及 VariantGen，这是一个通过监督微调初始化，并使用 VariantQual 作为奖励模型进一步通过强化学习优化的变体生成器。在 HellaSwag 上的实验表明，SAGE 构建了一个大规模鲁棒性增强基准，其质量与人工标注的 HellaSwag-Pro 相当，但成本显著降低；此外，经过微调的模型无需针对特定基准进行微调，即可泛化到 MMLU。

查看原文

查看缓存全文

缓存时间: 2026/05/13 06:21

# SAGE：用于大模型知识评估的可扩展自动化鲁棒性增强

来源：https://arxiv.org/html/2605.12022
李孝远1，王宇哲2，李莫欣3，包克勤1，门锐2，张一昌2，刘大恒2，王文杰1，冯福立1
1中国科学技术大学 2阿里巴巴集团 3新加坡国立大学

###### 摘要

大语言模型（LLMs）在标准知识评估基准上表现强劲，但最近的研究表明，在面对以不同形式测试相同知识的题目变体时，其知识能力仍然脆弱。因此，对现有知识评估基准进行鲁棒性增强是必要的，但当前的LLM辅助“生成后验证”流程由于变体生成产出率低且变体验证不可靠，导致成本高昂且难以扩展。我们提出了SAGE（Scalable Automated Generation of Robustness BEnchmarks，鲁棒性基准的可扩展自动生成）框架，利用经过微调的小模型对知识评估基准进行可扩展的鲁棒性增强。SAGE包含VariantQual，一个基于人类标注种子数据训练的基于评分标准（rubric-based）的验证器，以及VariantGen，一个通过监督微调初始化并利用VariantQual作为奖励模型通过强化学习进一步优化以生成变体的生成器。在HellaSwag上的实验表明，SAGE构建了一个大规模的鲁棒性增强基准，其质量与人类标注的HellaSwag-Pro相当，但成本大幅降低；此外，微调后的模型还能泛化到MMLU，而无需针对特定基准进行微调。

## 1 引言

大语言模型（LLMs）编码了大量的知识，使其能够在广泛的任务中表现出色。因此，评估LLM的知识能力对于其可信部署至关重要。如CommonsenseQA (Talmoret al.,2019 (https://arxiv.org/html/2605.12022#bib.bib4))和MMLU (Hendryckset al.,2021 (https://arxiv.org/html/2605.12022#bib.bib47))等知识评估基准已成为LLM评估的广泛使用标准。包括GPT-4o (Achiamet al.,2023 (https://arxiv.org/html/2605.12022#bib.bib26))和Claude-3.5 (Anthropic,2024 (https://arxiv.org/html/2605.12022#bib.bib27))在内的当前最先进LLM在这些基准上准确率超过90%，展示了在标准评估设置下强大的知识能力。

尽管在标准基准上的表现接近饱和，但最近的工作表明，LLM对题目变体仍然脆弱 (Liet al.,2025 (https://arxiv.org/html/2605.12022#bib.bib8))，这些变体保留了所测试的知识，但改变了原题的表述或推理过程。例如，GPT-4o在原始HellaSwag (Zellerset al.,2019 (https://arxiv.org/html/2605.12022#bib.bib3))上的准确率约为90%，但在负向变换下（即从“女士*将*...”变为“女士*将不*...”）降至9%，揭示了LLM知识能力中严重但常被隐藏弱点。这些发现凸显了使用此类题目变体对现有知识评估基准进行鲁棒性增强的必要性，从而实现对LLM知识能力的鲁棒且全面的评估。

然而，大规模知识评估基准的鲁棒性增强既昂贵又具有挑战性。现有努力如HellaSwag-Pro (Liet al.,2025 (https://arxiv.org/html/2605.12022#bib.bib8))通常采用LLM辅助的生成后验证流程，即强大的LLM在预定义的变体类型和重构规则下生成变体，然后判断其有效性以过滤掉无效候选项。该流程面临两个关键瓶颈。首先，**变体生成产出率低**：LLM经常生成无效或低质量的变体，在HellaSwag-Pro中，只有46%的生成候选项通过了质量控制，导致了大量令牌（token）成本的浪费。其次，**变体验证劳动密集**：提示LLM无法可靠地确定变体是否有效，需要大量的人工标注。这些瓶颈限制了鲁棒性增强的可扩展性和成本效益。

为了解决这些瓶颈，我们用专门用于生成和验证的微调小模型取代了昂贵的强模型提示流程。我们的核心思想是先构建一个可靠的变体验证器，然后利用它来改进变体生成。具体而言，我们将变体质量分解为三个通用评分标准维度：**类型一致性**、**标签正确性**和**答案唯一性**，并在人类标注的种子数据上微调一个小验证器以提供可靠的质量判断。基于此验证器，我们通过首先在人类标注的种子示例上进行监督微调（SFT）来初始化一个小变体生成器，然后使用强化学习（RL）对其进行优化，将微调后的验证器作为奖励模型以鼓励高质量生成。这种设计通过小模型部署提高了成本效益，并通过验证器引导的质量控制和生成器优化提高了准确性。

在本文中，我们提出了SAGE（Scalable Automated Generation of Robustness BEnchmarks），一个用于知识评估基准的可扩展自动化鲁棒性增强框架。SAGE由两个组件组成：用于生成题目变体的**VariantGen**和用于评估其质量的**VariantQual**。将SAGE应用于HellaSwag (Zellerset al.,2019 (https://arxiv.org/html/2605.12022#bib.bib3))，我们构建了一个与HellaSwag-Pro质量相当的鲁棒性增强基准，同时所需的成本大幅降低。此外，这些组件无需针对特定基准进行微调即可泛化到MMLU (Hendryckset al.,2021 (https://arxiv.org/html/2605.12022#bib.bib47))。我们的贡献有三方面：

参见图1：SAGE框架概览。SAGE包含三个阶段：VariantGen和VariantQual在人类标注数据集上的SFT，使用VariantQual作为奖励模型对VariantGen进行基于GRPO的优化，以及带有质量过滤的大规模基准生成。

- 我们将知识评估基准的可扩展自动化鲁棒性增强任务形式化，即在预定义的变体类型下生成题目变体。
- 我们提出了SAGE，一个用于可扩展自动化鲁棒性基准增强的框架，它用微调的小模型生成器和评估器取代了昂贵的强模型提示，提高了成本效益和构建准确性。
- 我们将SAGE应用于HellaSwag，构建了一个成本大幅降低且质量与HellaSwag-Pro相当的大规模鲁棒性增强基准，并进一步验证了其在MMLU上的跨基准泛化能力。

## 2 相关工作

##### 鲁棒性与对抗性评估

先前关于LLM鲁棒性的工作涵盖了阅读理解上的对抗攻击 (Jia and Liang,2017 (https://arxiv.org/html/2605.12022#bib.bib9))、通用对抗触发器 (Wallaceet al.,2019 (https://arxiv.org/html/2605.12022#bib.bib11))、虚假相关性分析 (Brancoet al.,2021 (https://arxiv.org/html/2605.12022#bib.bib10); Geirhoset al.,2020 (https://arxiv.org/html/2605.12022#bib.bib12))以及一致性评估 (Storks and Chai,2021 (https://arxiv.org/html/2605.12022#bib.bib14); Johnson and Marasović,2023 (https://arxiv.org/html/2605.12022#bib.bib15))。Balepuret al.(2024 (https://arxiv.org/html/2605.12022#bib.bib13))研究了基于否定的推理，而Wuet al.(2024 (https://arxiv.org/html/2605.12022#bib.bib35))研究了反事实任务性能。HellaSwag-Pro (Liet al.,2025 (https://arxiv.org/html/2605.12022#bib.bib8))引入了一个基于布鲁姆分类学的七种变体类型的系统框架，代表了迄今为止最全面的鲁棒性评估工作。然而，所有现有的鲁棒性基准都是手动构建的，限制了其规模和更新频率。SAGE通过自动化整个生成和验证流程解决了这一瓶颈。

##### 自动化数据生成

Self-Instruct (Wanget al.,2023 (https://arxiv.org/html/2605.12022#bib.bib17))和Evol-Instruct (Xuet al.,2023 (https://arxiv.org/html/2605.12022#bib.bib18))表明LLM可以生成用于指令跟随的训练数据。Yuanet al.(2023 (https://arxiv.org/html/2605.12022#bib.bib19))探索了使用LLM生成数据进行约束语言规划。然而，这些方法针对的是通用训练数据，而非生成语义有效、多样化且对抗性有效的鲁棒性评估变体的特定挑战。SAGE的不同之处在于专门针对鲁棒性基准生成，并采用基于评分标准的质量验证器来确保质量。

##### 文本生成的强化学习

RLHF (Ouyanget al.,2022 (https://arxiv.org/html/2605.12022#bib.bib21))和基于偏好的方法如DPO (Rafailovet al.,2023 (https://arxiv.org/html/2605.12022#bib.bib22))使用整体奖励信号将LLM与人类偏好对齐。GRPO (Shaoet al.,2024 (https://arxiv.org/html/2605.12022#bib.bib23))在数学和代码等可验证领域证明特别有效，在这些领域中，正确性可以自动检查以提供清晰的奖励信号。最近，Gunjalet al.(2025 (https://arxiv.org/html/2605.12022#bib.bib24))通过将结构化评分标准用作奖励函数，将强化学习扩展到不可验证领域，表明将质量分解为明确的标准可以在二元验证不可用时引导优化。受这一见解的启发，SAGE将评分标准引导的RL应用于鲁棒性基准生成：VariantQual的评分标准将变体质量分解为具体的、可评估的维度，并作为GRPO的奖励模型。

## 3 方法

### 3.1 问题定义

我们将LLM知识评估基准的鲁棒性增强定义为在预定义的变体类型下生成有效题目变体的任务。给定一个原始选择题 $q=(c, \mathcal{O}, y)$，其中 $c$ 是上下文，$\mathcal{O}=\{o_k\}_{k=1}^K$ 表示答案选项，$y \in \{1, \ldots, K\}$ 是正确答案索引，令 $\mathcal{T}$ 表示预定义变体类型的集合。对于每种目标类型 $t \in \mathcal{T}$，生成的变体 $q_t=(c_t, \mathcal{O}_t, y_t)$ 应保持为一个有效的选择题，测试与 $q$ 相同的底层知识，同时根据类型 $t$ 改变其表述或推理过程。在我们的实现中，$\mathcal{T}$ 包含由布鲁姆认知分类学 (Krathwohl,1973 (https://arxiv.org/html/2605.12022#bib.bib37)) 指导的七种变体类型，如表1 (https://arxiv.org/html/2605.12022#S3.T1) 所述。

现有工作表明，提示强LLM进行变体构建由于生成产出率低且验证不可靠，仍然昂贵且难以扩展。鉴于这些局限性，SAGE用两个微调的小模型组件取代了重复的强模型提示：VariantQual，一个用于评估变体质量的基于评分标准的验证器；以及VariantGen，一个以原始题目和目标变体类型为条件的生成器。我们首先描述这两个组件，然后介绍完整的基准构建流程。图1 (https://arxiv.org/html/2605.12022#S1.F1) 展示了SAGE的概览。

表1：SAGE采用的七种变体类型，映射到布鲁姆认知分类学 (Krathwohl,1973 (https://arxiv.org/html/2605.12022#bib.bib37))。每种类型将原始题目转换为不同的推理形式，同时保留底层知识。参见图3 (https://arxiv.org/html/2605.12022#S4.F3) 获取示例。

### 3.2 VariantQual

我们确定了微调可靠验证器的两个关键要求：明确定义的评估标准以及基于这些标准的准确验证。因此，我们推导出了一个三维变体验证评分标准，并微调VariantQual以学习和应用该评分标准。

##### 评分标准设计

通过检查HellaSwag-Pro公开发布的标注数据，我们确定了 $q_t$ 有效的三个关键要求。我们将这些要求总结为三个评分标准维度。仅当变体通过所有三个维度时，才被认为是有效的。

- **类型一致性（TC）**：生成的变体是否在满足目标变体类型约束的同时保留了原始测试的知识。
- **标签正确性（LC）**：给定的生成上下文和答案选项，标注的标签是否正确识别了正确答案。
- **答案唯一性（AU）**：生成的变体是否恰好有一个正确答案，且其他选项既不重复也不与问题无关。

我们将HellaSwag-Pro的验证标注转换为训练VariantQual的种子数据：

$$ \mathcal{D}_{\mathrm{qual}} = \{(q, q_t, t, l_{\mathrm{TC}}, l_{\mathrm{LC}}, l_{\mathrm{AU}}, v)\}, $$

其中 $l_{\mathrm{TC}}, l_{\mathrm{LC}}, l_{\mathrm{AU}} \in \{0, 1\}$ 是维度级标签，$v \in \{0, 1\}$ 是最终有效性标签。由于有效变体必须满足所有三个维度，我们定义

$$ v = l_{\mathrm{TC}} \cdot l_{\mathrm{LC}} \cdot l_{\mathrm{AU}}. $$

剩余的问题是如何让VariantQual学习和聚合这些评分标准维度。我们比较了两种策略：**显式**和**隐式**评分标准聚合。

##### 显式评分标准聚合（ERA）

ERA微调VariantQual以单独评估每个评分标准维度。给定维度 $d \in \{\mathrm{TC}, \mathrm{LC}, \mathrm{AU}\}$ 的评分标准指令 $r_d$，VariantQual预测相应的维度级标签：

$$ p_\phi(l_d \mid q, q_t, t, r_d), $$

其中 $\phi$ 表示VariantQual的参数。ERA的SFT目标是最大化所有维度级标签的对数似然：

$$ \max_\phi \mathcal{J}_{\mathrm{ERA}}(\phi) = \mathbb{E}_{\mathcal{D}_{\mathrm{qual}}} \left[ \sum_{d \in \{\mathrm{TC}, \mathrm{LC}, \mathrm{AU}\}} \log p_\phi(l_d \mid q, q_t, t, r_d) \right]. \quad (1) $$

在推理时，VariantQual分别预测 $\hat{l}_{\mathrm{TC}}, \hat{l}_{\mathrm{LC}}$ 和 $\hat{l}_{\mathrm{AU}}$，并将它们聚合作为

$$ \hat{v} = \hat{l}_{\mathrm{TC}} \cdot \hat{l}_{\mathrm{LC}} \cdot \hat{l}_{\mathrm{AU}}. $$

该策略提供了细粒度的诊断信号，因为每个无效变体都可以追溯到特定的失败维度。

##### 隐式评分标准聚合（IRA）

IRA微调VariantQual通过单次验证传递联合评估所有评分标准维度，直接预测最终有效性标签：

$$ p_\phi(v \mid q, q_t, t, \mathcal{R}), $$

其中 $\mathcal{R} = [r_{\mathrm{TC}}, r_{\mathrm{LC}}, r_{\mathrm{AU}}]$ 表示完整的评分标准指令。IRA的SFT目标是

$$ \max_\phi \mathcal{J}_{\mathrm{IRA}}(\phi) = \mathbb{E}_{\mathcal{D}_{\mathrm{qual}}} \left[ \log p_\phi(v \mid q, q_t, t, \mathcal{R}) \right]. \quad (2) $$

该策略减少了推理成本，并允许模型进行联合判断...

SAGE：用于 LLM 知识评估的可扩展自动化鲁棒性增强

相似文章

SAGE：一种由LLM驱动的自我反思智能体框架用于欺诈检测

增强元认知AI：基于图论的大语言模型富集的知识图谱填充

面向即时自适应反馈：通过知识驱动的LLM提升学生学习效果

REVES: REVES：修订与验证增强的测试时扩展训练

SAGE：保留感知的后处理清洗最终遗忘向量

提交意见反馈