使用大型语言模型支持本科生研究项目的高容量申请审阅

arXiv cs.CL 论文

摘要

本文描述了基于LLM的工具的开发,该工具使用OpenAI的GPT模型评估普渡大学SURF项目约1,200份目的陈述,处理时间约4.6小时,相比传统人工评分加速了审阅流程。

arXiv:2606.05564v1 Announce Type: new 摘要:本科生研究项目,例如普渡大学的夏季本科生研究奖学金(SURF),每年收到数千份申请,需要项目工作人员投入大量时间和精力,在严格的时间节点内一致地评估每份提交。这篇进行中的论文描述了一个基于大型语言模型(LLM)工具的开发和初步部署,该工具旨在协助评估普渡大学SURF 2026周期的约1,200份学生目的陈述(SoP)。工作流程使用了OpenAI的GPT模型(GPT-4o、GPT-5-mini和GPT-5.2),并采用一个包含六个子类别的结构化评分标准,每个类别按0-3分评分。少量由工作人员评分的SoP被用于调整模型响应。模型提示设计为生成每个提交的数值分数、理由(包括正面和负面方面)以及简短摘录。使用GPT-5.2,整个1,200份SoP批次在大约4.6小时的计算时间内处理完成,平均每份SoP约14秒(每份SoP的处理时间随其长度而变化,长度范围从500到2,000字)。在模型版本之间观察到评分标准遵循度的显著差异,GPT-5.2的遵循度最高。模型分数的差异在评分较低的提交中更为明显。LLM的输出复制了之前由分散的人工评分者所扮演的角色,为项目协调员提供了整个申请人群体的评分和理由注释输出。然后项目协调员将这些输出与每位申请人的SoP一起审查,应用与先前SURF周期相同的下游办公室标准,以产生一个强候选人的短名单。这次协调员审查大约在4小时内完成,而之前的项目周期需要数周的协调工作。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:06

# 使用大型语言模型支持本科生研究项目的高量申请评审

来源:https://arxiv.org/html/2606.05564  
Varun Aggarwal1,2, Kay Kobak1, John Howarter1,3  
1 普渡大学工程本科生研究办公室  
2 普渡大学埃尔莫尔电气与计算机工程学院  
3 普渡大学材料工程学院  

###### 摘要

本科生研究项目,例如普渡大学的暑期本科生研究奖学金(SURF),每年都会收到数千份申请,项目人员需要投入大量时间和精力来持续、及时地评估每一份申请。这篇进行中的论文描述了一个基于大型语言模型(LLM)的工具的开发与初步部署,该工具旨在协助评估普渡大学 SURF 2026 周期的约 1,200 份学生目的陈述(SoP)。工作流程利用 OpenAI 的 GPT 模型(GPT-4o、GPT-5-mini 和 GPT-5.2),并采用结构化的评分标准,涵盖六个子类别,每个子类别按 0–3 分制评分。项目人员评分过的少量 SoP 被用于调整模型响应。模型提示词旨在生成数值评分和理由,包括正面和负面方面,并辅以每份申请中的简短摘录。本文报告了工作流程和初步观察结果。使用 GPT-5.2,1,200 份 SoP 的完整批次处理时间约为 4.6 小时,平均每份 SoP 大约需要 14 秒(每份 SoP 的处理时间随 SoP 长度而变化,长度范围从 500 到 2,000 字)。不同模型版本在评分标准遵循度上观察到显著差异,其中 GPT-5.2 的符合度最高。对于得分较低的申请,模型间的评分差异更为明显。LLM 输出并未直接用于筛选申请人;相反,它们复制了之前由分散的人类评分员所扮演的角色,为项目协调员提供整个申请人库的评分和附带理由的注释输出。然后,项目协调员将这些输出与每位申请人的 SoP 一同审阅,应用与之前 SURF 周期相同的下游办公室标准,以产生一份强有力的候选人短名单。这次协调员审阅大约在 4 小时内完成,相比之下,在之前的项目周期中,需要花费数周时间来招募、培训一支人类评分员团队并协调其评分。

*关键词* 大型语言模型 · 自动作文评分 · 申请评审 · 本科生研究

## 1 引言

本科生研究经历被广泛认为是培养 STEM 人才和提高留任率的关键机制,尤其对于代表性不足的群体(美国国家科学、工程和医学院,2017 (https://arxiv.org/html/2606.05564#bib.bib1);Linn 等人,2015 (https://arxiv.org/html/2606.05564#bib.bib2))。像暑期本科生研究奖学金(SURF)这样的项目为本科生提供了参与教师指导研究的结构化机会。然而,随着项目知名度和机构入学人数的增长,申请量也大幅增加。对于我校的 SURF 2026 周期,该项目收到了大约 3,000 份申请,给项目工作人员带来了重大的运作挑战。

传统的评审过程包括组建一支人类评分员团队、分发申请、针对共享评分标准校准评审员、收集评分以及协调结果。这个过程不仅在实际阅读和评分每份申请上耗时,而且在协调多位评审员所需的规划、分配和汇总步骤上也耗时。此外,当不同的评审员带来不同水平的专业知识和注意力时,可能会出现评分不一致的情况,这是同行和小组评审过程中一个记录完善的问题(Recio-Saucedo 等人,2022 (https://arxiv.org/html/2606.05564#bib.bib3))。

大型语言模型(LLM)的最新进展已证明它们能够以日益提高的可靠性,根据结构化评分标准评估书面文本(Ramesh 和 Sanampudi,2022 (https://arxiv.org/html/2606.05564#bib.bib4);Mizumoto 和 Eguchi,2023 (https://arxiv.org/html/2606.05564#bib.bib5);Tang 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib6))。研究表明,通过精心设计的提示词、评分标准和校准示例,LLM 可以达到与人类评分员相接近的评分一致性,甚至接近人类评分员之间的一致性水平(Tian 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib8);Rodrigues 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib9))。至关重要的是,研究还表明,LLM 的评估质量对提示词设计、模型版本和温度设置高度敏感,如果没有明确的评分标准指导,LLM 会产生不一致且不可靠的评分(Yavuz 等人,2025 (https://arxiv.org/html/2606.05564#bib.bib10);García-Varela 等人,2025 (https://arxiv.org/html/2606.05564#bib.bib11))。这些发现表明,虽然 LLM 尚不能替代人类判断,但经过深思熟虑的部署,它们可以作为强大的分类和预筛选工具。

这篇进行中的论文描述了一个基于 LLM 的工作流程的开发,以支持 SURF 2026 申请评审过程。主要目标是使用 LLM 复制分散人类评分员的角色,为整个申请人库生成附带评分和理由的注释输出,然后项目协调员可以使用与之前 SURF 周期相同的下游办公室标准对这些输出进行审阅。

## 2 方法

### 2.1 申请筛选

在任何基于 LLM 的评估之前,首先根据项目制定的资格标准对申请进行筛选。这些标准包括最低 GPA 3.2、表达出对研究生的兴趣、目的陈述至少 450 字、能够参加整个项目周期、年龄至少 18 岁、项目结束后至少还剩一个学期、当前状态至少为大二学生,以及未曾参加过 SURF。这一初步筛选将申请人库从大约 3,000 人减少到大约 1,200 名符合条件的申请人,然后这些申请进入 SoP 评估阶段,以确定高潜力学生库。

### 2.2 评分标准设计

评估评分标准(附录 A)专门为 SURF 项目设计,包含三个主要类别:热情、目标明确性和韧性,每个类别包含两个子类别,共计六个评估维度。每个子类别按 0-3 分制评分,最高总分为 18 分。热情类别评估对科学研究的动机(申请人是否阐述了是什么激发了他们对 STEM 的兴趣以及他们为何继续追求它)和主动性(申请人是否在必修课程之外积极寻求机会,包括在其所在院校之外的机会)。目标明确性类别评估项目期望与收益(申请人是否对 SURF 项目表现出切合实际的理解,并提及普渡大学的具体专业发展机会、系部或教师)以及与未来努力和职业方向的一致性(申请人是否将该项目与未来的研究生计划联系起来,包括具体的学位类型和领域)。韧性类别评估通过经验进行学习的反思(申请人是否反思个人、学术或研究方面的挑战并展现出成长)和问题解决(申请人是否描述了克服挑战的结构化方法并寻求外部资源)。每个评分等级都附有详细的行为描述,具体说明了该等级表现的特征,为模型的评分和评估理由提供了具体依据。

当前的评分标准是在初始开发阶段观察模型输出后迭代开发的。此前 SURF 周期使用的早期版本评分标准(附录 C)依赖于更主观的描述(例如,“具有感染力的热情”或“卓越的解决问题的能力”)。我们发现,当相邻评分等级之间的差异由客观可观察的行为而非定性印象来定义时,模型的表现显著更好。用行为明确的标准(例如,“既提及对 STEM 的兴趣,也提及在 STEM 领域继续发展的动机”或“通过竞争性申请过程申请机会”)取代主观锚点产生了两个效果:模型的评分在各个申请中有了依据,并且项目协调员能够更好地根据 SoP 中引用的证据验证每个评分。

### 2.3 提示词工程

提示词(附录 B)指示模型根据指定的评分标准评估每份 SoP,并生成一个 JSON 输出,其中包含六个子类别中每一个的评分和理由。提示词要求每个理由包括正面和负面两个方面以证明所赋评分的合理性,防止出现片面的评估。提示词还要求理由必须得到 SoP 中直接摘录的支持。通过迫使模型引用具体的申请人摘录,项目协调员可以快速验证评分是否基于实际提交内容,从而限制 LLM 的幻觉。此外,提示词允许使用分数以处理边界情况。完整的评分标准及其所有评分等级描述直接嵌入每个提示词中,随后是申请人的 SoP。本研究中的 SoP 长度范围约为 500 到 2,000 字。

### 2.4 少样本校准

为了根据人类期望校准模型行为,在每个表现水平——高(总分 >12)、中(8 < 总分 ≤13)和低(总分 ≤8)——选取了大约三个示例 SoP,由项目协调员评分后提供给模型作为参考示例。这些示例作为锚点,允许对提示词进行迭代优化以调整评分的严格或宽松程度。与零样本方法相比,这种少样本方法显著提高了与人类评分员的评分标准一致性(Tian 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib8);Metzler 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib12);Rao 和 Callison-Burch,2026 (https://arxiv.org/html/2606.05564#bib.bib13))。校准过程是迭代的。先审查示例输出,然后调整提示词以解决评分偏差,重新运行示例,直到模型的输出与参考 SoP 的真实评分匹配。

### 2.5 人工审阅与候选人库选择

在基于 LLM 的评分之后,将大约 1,200 份已完成评分和注释的输出,连同每位申请人的 SoP 一起提交给项目协调员审阅。LLM 输出旨在复制之前由分散人类评分员所扮演的角色,为协调员提供整个申请人库的已评分和附带理由的申请。人工审阅步骤被认为是必不可少的,因为输出作为结构化的初步筛选,可以指导审阅顺序。最终的候选人库选择完全由项目协调员决定,应用与之前项目周期相同的标准选择标准。

## 3 初步观察

### 3.1 处理与审阅工作流程

大约 1,200 份符合条件的 SoP 通过 OpenAI API 使用自定义脚本111源码可在 https://github.com/Salazar-Prime/llm-sop-rubric-evaluator 获取进行处理,每次针对 GPT-5.2 的评估平均耗时约 14 秒(每份 SoP 的处理时间随 SoP 长度而变化,长度范围从 500 到 2,000 字)。完整批次的计算时间约为 4.6 小时,并在夜间运行,结果存储在电子表格中(图 1 (https://arxiv.org/html/2606.05564#S3.F1))。GPT-5.2 的 API 调用总成本为 25 美元,用于所有 1,200 份 SoP。每条记录包含申请人在六个子类别的得分、详细的理由文本(附有 SoP 的直接引用)以及总分。然后,项目协调员按总分顺序审阅申请人,特别关注每个评估的理由和引用的证据。高潜力申请人被标记在项目的选择门户上。这一工作流程使单个协调员能够在大约 4 小时内完成审阅,而之前需要花费数周来招募和协调人类评分员团队并汇总其结果。增加引用的评估理由,有助于协调员快速浏览引用的文本并确认评分是合理的,而无需重新阅读整个 SoP。

参见图注 图 1:LLM 每位申请人评分时间(GPT-5.2)
### 3.2 模型版本差异

在开发过程中,测试了多个 OpenAI 模型版本,包括 GPT-4o、GPT-5-mini 和 GPT-5.2。一个显著的发现是,GPT-5.2 相比 GPT-4o 表现出更严格地遵循结构化评分标准,特别是在处理得分较低的申请时。GPT-4o 倾向于对较弱的 SoP 给出更宽松或不一致的评分,而 GPT-5.2 更一致地应用评分标准标准。GPT-5-mini 也经过了测试,但被发现不足以胜任这项评估任务,其输出缺乏必要的分析深度。这一观察结果与更广泛的文献相符,文献表明模型版本和能力显著影响评分可靠性(Tang 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib6);Mathew 等人,2026 (https://arxiv.org/html/2606.05564#bib.bib14))。

### 3.3 模型间评分差异

为了评估模型间一致性,我们比较了 GPT-4o、GPT-5-mini 和 GPT-5.2 在 1,200 份评估 SoP 上产生的总分(图 2 (https://arxiv.org/html/2606.05564#S3.F2))。模型间评分差异定义为任何三个模型针对给定申请人所赋最高分与最低分之间的差值,作为分歧的衡量标准。高分申请的模型间差异明显低于低分申请。对于 GPT-5.2 总分达到 13 分或以上的申请人,各模型之间的平均分差约为 2 分或更少,表明共识较强。相比之下,得分低于 10 分的申请人平均分差达到 4 分或更高,且方差较大。这表明评分标准和提示词为模型提供了足够的指导,使其能够对优秀的申请达成一致,因为此类申请中热情、主动性和韧性的指标清晰且一致地表达出来;但对于较弱的申请,这些品质缺失或表述模糊,给模型留下了更多解释空间,导致分歧。这些发现与自动作文评分文献中更广泛的观察结果一致,即 LLM 评分可靠性往往在绩效分布的低端下降(Mathew 等人,2026 (https://arxiv.org/html/2606.05564#bib.bib14);Mansour 等人,2024 (https://arxiv.org/html/2606.05564#bib.bib15))。

参见图注 图 2:以 GPT-5.2 评分为基线的模型间评分差异。箱线图显示了各申请人(按 GPT-5.2 评分分组)在 GPT-5.2、GPT-5-mini 和 GPT-4o 之间的分歧分布(最高分 - 最低分)。

相似文章

rasbt/LLMs-from-scratch

GitHub Trending (daily)

该仓库提供开源代码,用于从零开始构建、预训练和微调一个类似GPT的大型语言模型,是Sebastian Raschka同名书籍的官方代码配套。

评估大语言模型在社交媒体分析中的能力:多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。