一种用于阅读理解题目生成中特征约束难度控制的多智能体框架
摘要
本文提出MAFIG,一种多智能体框架,利用LLM智能体和特征特定的评估器,通过遵循指定的特征约束来生成难度可控的阅读理解题目。实验表明,与基线方法相比,MAFIG在约束满足率和稳健的难度控制方面表现出显著优势。
arXiv:2605.19316v1 公告类型:新
摘要:近期在难度可控的阅读理解题目生成研究中,利用大型语言模型(LLMs)通过调整与难度相关的特征来生成题目。然而,现有方法通常采用单智能体提示方法,往往无法一致地满足指定的特征约束,导致题目偏离目标难度水平。为解决这一局限,我们提出MAFIG——一种用于特征约束题目生成的多智能体框架,其中多个LLM智能体和特征特定的评估器协同工作,根据预期约束生成并迭代修改题目。此外,为了验证MAFIG在难度控制上的有效性,我们提出了一种方法,用于构建一组特征约束序列,该序列能生成难度单调递增的题目。实验结果表明,MAFIG生成的题目以显著高于基线方法的比率符合目标约束,通过难度校准的约束序列实现了稳健的难度控制。
查看缓存全文
缓存时间: 2026/05/20 08:25
# 面向阅读理解题目生成中特征约束难度控制的多智能体框架 来源:https://arxiv.org/html/2605.19316 Seonjeong Hwang¹, Jun Seo¹, Hyounghun Kim¹,², Gary Geunbae Lee¹,² ¹浦项工业大学人工智能研究生院,韩国 ²浦项工业大学计算机科学与工程系,韩国 \{seonjeongh, sjin4861, h\.kim, gblee\}@postech\.ac\.kr
###### 摘要
近期关于难度可控的阅读理解题目生成研究,已利用大语言模型(LLM)通过调整难度相关特征来生成题目。然而,现有方法通常依赖于单智能体提示方式,这往往无法稳定满足指定的特征约束,导致生成题目偏离目标难度水平。为解决这一局限,我们提出了MAFIG,一个用于特征约束题目生成的多智能体框架。在该框架中,多个LLM智能体与特征特定评估器协作,根据预期约束生成并迭代修订题目。此外,为验证MAFIG在难度控制中的有效性,我们提出了一种构建特征约束集序列的方法,该序列能生成难度单调递增的题目。实验结果表明,MAFIG生成的题目在遵循目标约束方面显著优于基线方法,并通过难度校准的约束序列实现了稳健的难度控制。
# 面向阅读理解题目生成中特征约束难度控制的多智能体框架
Seonjeong Hwang¹, Jun Seo¹, Hyounghun Kim¹,², Gary Geunbae Lee¹,²
¹浦项工业大学人工智能研究生院,韩国
²浦项工业大学计算机科学与工程系,韩国
\{seonjeongh, sjin4861, h\.kim, gblee\}@postech\.ac\.kr
## 1 引言
参见图注
图1:选择题RC题目生成中特征约束难度控制示例。
阅读理解(RC)题目在语言教育和能力评估中至关重要。随着在线学习和计算机化测试的持续扩展,对能够自动生成涵盖广泛难度水平的高质量题目的方法需求巨大。近期研究已证实,大语言模型(LLM)能够生成语言流畅且教学合理的RC题目(Xiao等人,2023;Bezirhan和von Davier,2023;Lee等人,2024;Mucciaccia等人,2025)。然而,利用LLM对题目难度进行细粒度控制仍是一个尚待深入探索的领域。
此前关于RC题目生成难度控制的研究主要遵循两种范式。第一种方法利用统计框架(如项目反应理论IRT,Lord,1980)来分配难度参数,随后训练难度感知生成模型(Uto等人,2023;Tomikawa和Uto,2024;Tomikawa和Masaki,2024)。尽管这种方法能够实现心理测量学上的校准控制,但它需要大量学习者响应数据,并且在不同题目格式下的可扩展性有限。
与此同时,教育测量研究长期以来通过题目难度建模来探究与难度相关的题目特征,以指导人类命题者编写具有目标难度水平的题目(Ferrara等人,2022)。在此基础上,第二种范式涉及操控这些特征——例如布鲁姆认知水平(Bloom等人,1956)或语言属性如单词数和词汇水平——来调节难度(Elkins等人,2023;Hwang等人,2024;Yaacoub等人,2025;Chen和Shiu,2025;Oka等人,2025)。尽管LLM强大的指令遵循能力为此方向提供了潜力,但现有方法主要依赖于直接提示或随机采样。因此,它们常常难以遵循指定的特征约束,从而削弱了难度控制的可靠性。
为弥补这一差距,我们提出了MAFIG,即面向特征约束题目生成的多智能体框架。MAFIG旨在生成严格符合多维特征规格的RC题目,如图1所示。该框架通过角色专业化LLM智能体和特征特定评估器的协作系统运行。通过利用迭代优化过程,这些智能体结合外部领域知识(例如标准化词汇水平)和其内部推理能力,确保严格的约束满足。
尽管MAFIG旨在精确遵循特征约束,但将这种能力转化为系统性的难度控制需要一个能够按难度递进层次稳定生成题目的约束序列。为此,我们还提出了一种构建难度校准约束序列的方法,将教学原则与实证验证相结合,以确保题目复杂度的单调递增。
我们将所提出的框架与两种基线方法进行对比:(1)基于水平的控制,即LLM根据粗粒度难度指标(例如级别1到N)生成题目,完全依赖其内部启发式方法;(2)基于特征的直接提示,即LLM在单次生成中被要求满足所有特征约束。我们的实验结果表明,MAFIG在约束满足和难度校准两方面均达到了最先进的性能。值得注意的是,我们发现缺乏迭代修订过程的基线方法难以满足多维约束,导致难度对齐不一致——即使利用前沿推理模型如GPT-5(OpenAI,2025)也不例外。
我们的贡献总结如下:
- • 我们引入了MAFIG,一个系统生成严格遵循多维特征约束的RC题目的多智能体框架。
- • 我们提出了一种构建难度校准约束序列的新方法,使得生成的RC题目具有一致可区分且有序的难度水平。
- • 通过大量实验,我们证明了MAFIG在约束满足和难度校准两方面均显著优于基线方法。我们的结果表明,对细粒度题目特征的遵循可能在实现更可靠的难度控制中发挥重要作用。
## 2 相关工作
#### 基于LLM的题目生成与评估。
大语言模型的最新进展促进了在多种教学领域中的零样本试题合成。无需任务特定微调,LLM能够生成语言连贯且语义严谨的问题(Elkins等人,2023;Bezirhan和von Davier,2023;Lee等人,2024)。除了生成,当代研究还探索了LLM作为评估智能体的角色,用于验证可作答性、事实一致性和干扰项质量(Säuberli和Clematide,2024;Mucciaccia等人,2025)。此外,LLM已被用作模拟学生来分析题目难度和教学对齐(Lu和Wang,2024;Park等人,2024)。总体而言,这些研究突显了一种范式转变,即LLM在自动化评估流程中充当多面手组件——既是生成器也是评估器。
#### 难度可控的题目生成。
早期在难度可控生成方面的尝试主要依赖于带有难度参数的大规模数据集,这些参数通常来自IRT(Lord,1980)或其他教学标准(Gao等人,2018;Uto等人,2023;Tomikawa和Uto,2024;Tomikawa等人,2024)。然而,这种数据驱动方法成本高昂,并且常常缺乏对题目难度潜在因素的可解释性。因此,近期研究已转向基于提示的控制,即通过自然语言指令指定目标题目类型和难度水平。特别是,通过认知分类法(如布鲁姆水平,Bloom等人,1956)提示LLM已被广泛探索,以使生成的题目符合特定的推理需求(Li和Zhang,2024;Yaacoub等人,2025)。尽管有前景,布鲁姆水平提示常常在推理深度方面表现出不一致的控制(Elkins等人,2023;Hwang等人,2024)。此外,鉴于同一认知水平内难度的差异以及低层次认知任务(即记忆和理解)在高风险测试中的主导地位(Baghaei等人,2020),显然这些分类法不足以实现细粒度的校准。虽然一些近期研究尝试了更细粒度的特征控制(Chen和Shiu,2025;Oka等人,2025),但它们缺乏在LLM未能严格满足指定约束时对题目进行优化的系统机制。我们的工作通过引入一个多智能体框架来弥补这一差距,该框架迭代修订题目以确保严格遵循精确难度控制所需的特征约束。
#### 基于LLM智能体的约束满足生成。
最新进展已将LLM重新定位为能够承担多种角色的自主智能体。通过整合战略规划、自我反思、智能体间协作和工具增强推理等机制,这些智能体能够处理复杂任务并满足用户定义的复杂目标(Yao等人,2022;Shinn等人,2023;Madaan等人,2023;Talebirad和Nadiri,2023)。此类框架在多种约束满足任务中已展现出显著效果,包括可控摘要(Ryu等人,2024;Retkowski和Waibel,2025)和图表生成(Li等人,2025)。然而,尽管有这些技术进展,多智能体协作在教育评估中的应用——需要同时满足语言、事实和认知约束——仍然是一个未充分探索的前沿领域。我们的工作通过将多智能体约束满足范式扩展到RC题目生成领域来弥补这一差距。
## 3 方法
参见图注
图2:MAFIG生成管线的总览。
### 3.1 任务形式化
在本研究中,我们聚焦于多项选择事实信息(MCFI)格式,其中被试需要识别与给定阅读段落事实一致的陈述。具体而言,我们将一个题目定义为三元组,包含阅读段落、问题主干(例如,“根据段落,以下哪个陈述是正确的?”)以及一组选项。我们的框架通过输入源文档(决定核心内容)和一组决定目标难度水平的特征约束来生成题目。基于研究难度相关属性的既有文献(Bormuth等人,1970;Anderson,1972;Park,2004;Rafatbakhsh和Ahmadi,2023),我们形式化了六个控制认知需求或题目有效性的特征变量:词汇水平、段落长度、平均句子长度、推理复杂度、事实性和中立性。这些特征的详细定义和操作化在附录A中提供。
### 3.2 MAFIG
如图2所示,MAFIG通过两个顺序阶段合成多项选择RC题目:段落生成和选项生成。每个阶段都包含一个闭环生成与修订机制,用于生成目标组件(段落或选项集),同时严格遵循指定的特征约束。在第一阶段,根据源文档和段落级约束生成段落。生成的段落随后作为选项生成阶段的上下文。在第二阶段,框架产生满足选项级约束的选项。修订过程迭代进行,直到所有约束得到满足或达到预定义的最大迭代次数。
#### 评估器。
评估器由一组专门模块组成,用于量化生成题目中的特定特征变量。该组件集成了基于规则的模块(利用现成的NLP工具包)以及对需要语义理解的特征使用的LLM判断器。通过测量题目的属性,评估器判断指定的约束是否满足,并生成全面的错误报告,指出每个违反情况。详细信息在附录A中提供。
#### 起草器。
起草器根据源上下文和目标特征约束综合初始题目状态0。该智能体采样多个独立候选以支持并行修订,从而更高效地探索解空间并允许提前终止。
#### 规划器。
基于当前状态i、对应的错误报告i以及包含先前迭代计划的修订记忆,规划器制定修订题目的策略。该记忆机制使得规划器能够综合参考过去修改尝试的历史来制定修订策略,从而避免冗余或无效的编辑(Zhang等人,2023;Shinn等人,2023)。为了进一步增强鲁棒性...相似文章
基于微调Transformer的无响应项目难度建模用于多项选择题:组件表示与多任务学习
本文提出对Transformer编码器进行端到端微调,用于多项选择阅读理解项目的无响应项目难度建模,包括组件变体和多任务变体,表明多任务学习在小样本情况下有所改进。
学习适应:基于认知感知探索的自我改进网络智能体
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
MM-WebAgent: 一种用于网页生成的分层多模态Web智能体
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。
LectūraAgents: 自适应个性化AI辅助学习与具身教学的多智能体框架
LectūraAgents是一个用于自适应个性化学习的多智能体框架,它模拟教授与学生的互动,并生成与学习者画像对齐的具身教学动作。它引入了层级架构、自适应具身教学机制以及教学动作-语音对齐算法,在现有方法上表现出一致的改进。
LLMs难以衡量区分不同水平学生的能力:阅读理解评估中题目区分度研究
本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。