生成-评估一致性:LLM驱动自适应评估的必要效度标准

arXiv cs.AI 论文

摘要

介绍了生成-评估一致性(GEA),这是一种用于LLM驱动自适应评估的效度标准,并在一个两阶段自适应测试中对其进行了测量,发现该模型恢复了大约一半的预期方差,且存在系统性偏差。

arXiv:2605.19529v1 公告类型:新 摘要:当同一个LLM生成评估项目、模拟学生回答并对它们进行评分时,验证循环是自我参照的。我们引入了生成-评估一致性(GEA),这是一个衡量LLM的评分函数是否恢复了其生成函数被指示产生的技能水平的效度标准。在首次对两阶段自适应评估进行的GEA直接测量中,该模型恢复了大约一半的预期方差(r = 0.698),且存在系统性正偏差。对于语法上可验证的技能,GEA较强(r > 0.7),但对于设计层面的技能,GEA接近于零,而低技能的高估会使接近分路阈值的分数膨胀。我们认为,细粒度、技能分解的评分标准是加强GEA的主要机制,并概述了补充缓解措施。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:29

# 生成-评估一致性:LLM自适应评估的必要效度标准  
来源:https://arxiv.org/html/2605.19529  
Yue WangChe Yee LyeLuke Peh  
新加坡社会科学大学,463 Clementi Rd, 599494, 新加坡  
\{grandeelee,wangyue,cylye,lukepehlc\}@suss\.edu\.sg  

###### 摘要  
当同一个LLM生成评估项目、模拟学生回答并对其进行评分时,验证循环是自指的。我们引入**生成-评估一致性(GEA)**,这是一种效度标准,用于衡量LLM的评分函数是否能够恢复其生成函数被指示产生的技能水平。在对两阶段自适应评估的首次直接测量中,模型大约恢复了一半的预期方差(r=0\.698r=0\.698),并存在系统性正偏差。对于可语法验证的技能,GEA较强(r\>0\.7r\>0\.7),但对于设计级技能,GEA接近零,且低技能高估会抬高接近路由阈值的分数。我们认为,细粒度、技能分解的评分标准是增强GEA的主要机制,并概述了补充缓解措施。  

生成-评估一致性:LLM自适应评估的必要效度标准  
Grandee Lee、Yue Wang、Che Yee Lye、Luke Peh  
新加坡社会科学大学,463 Clementi Rd, 599494, 新加坡  
\{grandeelee,wangyue,cylye,lukepehlc\}@suss\.edu\.sg  

## 1 引言  
传统的计算机自适应测试(CAT)依赖于通过项目反应理论(IRT)预先校准的项目库,其中每个项目都有从数百个真实回答中估计出的已知难度和区分度参数(van der Linden and Glas, 2010 (https://arxiv.org/html/2605.19529#bib.bib14))。LLM自适应评估颠覆了这一模式:项目是动态生成的,每个学生可能获得独特的测试,而经典校准(每个项目需要50–200名受访者;Lord1980 (https://arxiv.org/html/2605.19529#bib.bib6))变得不可行。对评分标准、提示或课程材料的修订在改变测量内容、表现诱发方式、回答评分方式或分数解读方式时,会产生心理测量上的重大影响。在这些情况下,先前的校准和效度可能不再可迁移,部分项目库可能需要重新编写、重新链接、重新校准或重新验证(Han and Guo, 2011 (https://arxiv.org/html/2605.19529#bib.bib1))。在典型的学校环境中,当课程体系演变时,学习成果会更新;当教师发现歧义时,评分标准每学期会细化;课程重组会改变每项作业的技能先决条件。基于LLM的系统仅通过更新提示和评分标准就能吸收这些变化,但由此产生的评估效度必须每次重新建立。这产生了一个**引导问题**:如果没有真实学生数据就无法验证系统,但没有事先验证就无法大规模部署。当项目空间实际上是无限时,人工审查每个生成的项目是不可行的,且经典效度流程(预先校准、对照人工评分员验证、然后部署)不适用。基于模拟的验证提供了一种务实的替代方案。Liu et al. (2024 (https://arxiv.org/html/2605.19529#bib.bib5)) 证明,LLM模拟受访者的集成可以近似人类项目校准,相关性超过0.89。Zheng et al. (2026 (https://arxiv.org/html/2605.19529#bib.bib26)) 使用蒙特卡洛模拟在实证评估前确定最优CAT配置。Marquez-Carpintero et al. (2025 (https://arxiv.org/html/2605.19529#bib.bib7)) 综述了LLM模拟学生档案用于教学系统部署前测试的方法。然而,当同一个LLM生成项目、模拟学生回答并进行评分时,验证循环是自指的。如果模型对技能水平的表征在其生成和评估功能之间不一致,系统就会对照扭曲的镜子进行自我验证。本文引入**生成-评估一致性(GEA)** 作为这种内部一致性的正式标准:当LLM以预期技能水平生成回答时,评分能否恢复该水平?有效的路由决策需要忠实反映预期构念的分数,但“预期难度”仅存在于模型的内部表征中,通过两条不同的计算路径(生成和评估)访问,这两条路径遍历同一模型的不同提示条件区域。因此,对其对齐性的实证验证是基于模拟校准的LLM自适应评估的必要(尽管不充分)效度条件。  

见图注  
图1:GEA测量与闭环自我验证的对比。(a) 在纯闭环中,没有外部锚点,偏差不可见。(b) GEA引入预期技能水平x作为外部参考点。(c) 当生成器夸大技能时,GEA检测到差异。(d) 仅当两个功能共享对x的完全相同误解时,偏差才无法检测——鉴于生成和评估遍历不同提示条件路径的经验证据,这种情况不太可能出现。  

### 1.1 定义  
**生成-评估一致性(GEA)** 是LLM对技能水平的生成表征与其评估表征之间一致性的程度。形式上,如果模型在技能水平x条件下生成回答\mathbf{r},那么对\mathbf{r}的评分应在可接受误差范围内恢复x:  

\[ \mathbb{E}[\mathrm{score}(\mathbf{r}) \mid \mathbf{r} \sim \mathrm{generate}(x)] \approx x \tag{1} \]  

这里x, \mathrm{score}(\mathbf{r}) \in [0,1] 是连续的每技能分数;序数熟练度等级(附录D (https://arxiv.org/html/2605.19529#A4))是事后推导用于报告的。我们通过两个主要指标来操作化“\approx”:Pearson r 用于秩次保真度,带符号偏差用于系统方向性。我们提出两个可行的基准:r>0.7(强GEA)支持细粒度熟练度报告,r>0.4(中等GEA)支持二元路由决策。低于r=0.4的技能在未经人工验证的情况下不应使用自适应路由。关键的是,GEA测量**不**等同于闭环自我验证。图1 (https://arxiv.org/html/2605.19529#S1.F1) 说明了区别。在纯闭环系统(面板a)中,模型生成并评分,没有外部参考,因此任何系统性偏差都是不可见的。在GEA测量(面板b)中,预期技能水平x作为外部锚点。如果生成器夸大技能(面板c),差异\hat{x} \neq x 揭示了生成偏差。只有当两个功能共享对x的**完全相同**误解时(面板d),GEA才无法检测偏差——但鉴于第2.2节 (https://arxiv.org/html/2605.19529#S2.SS2) 中综述的经验证据表明存在分歧,这种情况不太可能。图2 (https://arxiv.org/html/2605.19529#S1.F2) 显示了测量GEA的具体评估架构。  

见图注  
图2:自适应评估流程。LLM在每个阶段生成作业并对回答进行评分。路由取决于累积平均分数\bar{s}是否超过阈值\theta。GEA衡量LLM生成功能与评估功能之间的一致性。  

## 2 背景  
### 2.1 闭环问题  
在传统CAT中,项目参数和评分函数针对真实人类回答数据独立验证。在基于LLM的自适应系统中,模型承担两个角色,没有外部锚点。一个具有启发意义(尽管不完美)的类比来自生成/判别区分:Ng and Jordan (2001 (https://arxiv.org/html/2605.19529#bib.bib9)) 表明,学习P(X|Y)和P(Y|X)的模型在有限容量下可能产生分歧。在LLM中,生成和评估共享相同的权重,但受不同提示条件控制,这些提示遍历不同的计算路径。生成由流畅性先验主导,评估由标准匹配主导。共享架构使得对齐**看似合理**,但并**不能保证**(Oh et al., 2024 (https://arxiv.org/html/2605.19529#bib.bib10); West et al., 2023 (https://arxiv.org/html/2605.19529#bib.bib18))。  

### 2.2 分歧的经验证据  
LLM难以模拟较低熟练度的认知状态(Yuan et al., 2026 (https://arxiv.org/html/2605.19529#bib.bib22)):尽管进行了技能水平提示,专家知识仍会泄露出来。Srivatsa et al. (2025 (https://arxiv.org/html/2605.19529#bib.bib13)) 针对11个LLM测试了真实的NAEP数据,发现没有模型-提示对能够忠实地再现真实学生分布;Wu et al. (2025 (https://arxiv.org/html/2605.19529#bib.bib19)) 在Python编程中证实了这一点。LLM还系统性地对自己的输出给予比来自其他来源的等效文本更高的评分(自我偏好偏差;Panickssery et al., 2024 (https://arxiv.org/html/2605.19529#bib.bib11)),其机制被识别为基于困惑度的熟悉性(Wataoka et al., 2024 (https://arxiv.org/html/2605.19529#bib.bib17))。即使专有模型在温度>0时也显示出较低的评分者内部一致性(Lee et al., 2024b (https://arxiv.org/html/2605.19529#bib.bib15))。在基于模拟的校准中,这些机制复合叠加:结果可能看似内部一致,但缺乏外部效度。  

### 2.3 对校准的影响  
当模拟是唯一可行的校准方法时,GEA成为信任度的看门人。如果GEA较低,分数分布反映的是模型的自我一致性而非真实学生表现。Wang et al. (2025a (https://arxiv.org/html/2605.19529#bib.bib12)) 认为需要概化理论和多面Rasch测量来分解多个同时出现的误差源,而不是将它们坍缩成一个单一系数。即使在真实部署中,生成侧也会影响题目生成:如果题目难度不合适,则无论评分准确度如何,路由决策都基于错配的题目。  

### 2.4 相关工作  
GEA与多个研究线索相关联。自动作文评分(AES)文献已研究评分者间信度数十年(Ramesh and Dash, 2022 (https://arxiv.org/html/2605.19529#bib.bib24));GEA的不同之处在于评分者和作者是同一模型。从心理测量学角度看,GEA体现了Messick (1989 (https://arxiv.org/html/2605.19529#bib.bib8)) 构念效度框架的**实质性**组成部分,并与《教育与心理测试标准》(American Educational Research Association et al., 2014 (https://arxiv.org/html/2605.19529#bib.bib23))关于分数支持预期解释的证据要求相一致。LLM-as-judge范式(Zheng et al., 2024 (https://arxiv.org/html/2605.19529#bib.bib25))已记录了自我偏好和位置偏差;GEA将其从仅评估设置扩展到先生成后评估的流程,其中生成偏差与评估偏差叠加。  

## 3 GEA的实证测量  
本节针对Python面向对象编程(OOP)编码任务的具体情况,按照第1.1节 (https://arxiv.org/html/2605.19529#S1.SS1) 定义的GEA进行实证测量。同一个Claude模型同时执行代码生成和基于24技能分类法(类定义、继承、异常处理等;完整列表见附录B (https://arxiv.org/html/2605.19529#A2))的评分标准评估。  

### 3.1 模拟设计  
#### 学生档案  
我们生成了150个合成学生档案,每个档案包含一个24维技能向量\mathbf{x} \in [0,1]^{24},对应官方学习成果(表2 (https://arxiv.org/html/2605.19529#S4.T2))。技能分为四个渐进组:A组(S01–S08,类基础)、B组(S01–S04, S06–S07, S09–S13,类变量与组合)、C组(S01–S04, S06, S09, S14–S21,继承与多态)、D组(S01, S14–S15, S22–S24,异常处理)。更多细节见附录B (https://arxiv.org/html/2605.19529#A2)。档案从10个原型中采样(例如“绝对初学者”、“实验2熟练者”、“高级”),并添加高斯噪声(σ=0.04)以产生原型内的合理变异。  

#### 评估槽位  
每个学生无论技能水平如何,都尝试了全部6个作业槽位,绕过自适应路由以确保完全覆盖:每个槽位测试24个技能中的指定子集;不适用技能在输出向量中标记为−1.0,并排除在评分之外。场景实体按学生确定性分配(以学生ID为种子),以确保可重复性。  

#### 先生成后评分协议  
对于每个(学生,槽位)对,我们依次调用两次Claude Sonnet 4.6 API:  
1. **生成**:给定学生的完整技能档案(24个技能分数及每个技能的自然语言描述)和作业问题,模型被提示生成**精确匹配**指定技能水平的Python代码,包括对低分技能的有意错误、遗漏和部分实现。  
2. **评分**:将生成的代码提交给同一模型的评分函数,使用相同的评分标准,返回24个元素的观察技能向量\hat{\mathbf{x}} \in \{-1.0\} \cup [0,1]^{24} 以及标量分数 s = \mathrm{round}(\mathrm{mean}(\hat{x}_i: \hat{x}_i \neq -1) \times 100)。这为每个在给定槽位中适用的技能 i 提供了配对观测 (x_i, \hat{x}_i),为测量公式1 (https://arxiv.org/html/2605.19529#S1.E1) 提供了原始材料。  

#### 规模  
所有150名学生都完成了全部6个槽位,产生了862条结果记录和7,788对(真实,观测)技能水平观测,涵盖24个技能中的23个(S13,字典集合管理,在任何槽位中均未测试)。表1 (https://arxiv.org/html/2605.19529#S4.T1) 总结了总体一致性统计量。  

## 4 GEA发现  

表1:总体GEA统计量(7,788对技能观测,150名学生,23个技能)。95%自助法置信区间来自1,000次重抽样。  

合并的皮尔逊相关系数 r=0.698 表明,LLM的评估功能恢复了其被要求生成的真实技能水平的大约一半方差(R²≈0.49)。正的平均偏差+0.059 证实了自我偏好偏差预测的方向:模型系统性地高估了自己生成代码的技能水平。在用于报告的熟练度级别粒度上(从“未展示”到“精通”的8个序数等级;边界见附录D (https://arxiv.org/html/2605.19529#A4)),精确分类准确率仅为34.8%,在有±1个相邻等级时上升至64.4%。这代表了中等程度的一致性,足以区分宽泛的技能带,但不足以支持细粒度熟练度报告。  

### 4.1 每技能GEA  
GEA在不同技能间差异巨大。表2 (https://arxiv.org/html/2605.19529#S4.T2) 呈现了按Pearson r排序的完整每技能分解。在针对23个技能进行多重比较的Benjamini-Hochberg校正后,19个相关性在α=0.05水平上保持显著;四个不显著的技能恰好是接近零的GEA。

相似文章

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

LGMT:基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI

本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。

面向LLM-as-a-Judge的动态评估准则生成与优化

arXiv cs.CL

本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。