构建程序性推理评估数据集：平衡自然性、基础性和多跳覆盖

arXiv cs.AI 2026/06/12 04:00 论文
摘要
本文探讨了基于TMK的问题生成策略如何影响AI学习系统中程序性和多跳推理的数据集质量，比较了严格TMK生成、先转录后生成和TMK感知生成三种策略，并引入了一个基础性验证框架。
arXiv:2606.12767v1 公告类型：新摘要：评估AI辅助学习系统中的程序性推理，需要既像学习者一样又基于系统预期使用的教学知识的问题-答案数据集。我们研究了基于TMK的问题生成策略如何影响程序性和多跳推理的数据集质量。我们比较了三种策略：从任务-方法-知识（TMK）模型严格生成、先转录后生成并事后进行TMK过滤、以及结合转录与结构化指导的TMK感知生成。为了评估生成的项目，我们引入了一个基于从TMK模型中提取的封闭集证据单元的基础性验证框架。该框架衡量答案是否得到底层表示的支持、问题是否自包含、以及是否针对多跳程序性推理。在23个教学主题和690个生成的问题-答案对中，严格TMK生成实现了最强的整体质量，其中96.5%的问题有基础性，92.6%的问题可用。先转录后生成产生了更多类似学习者的问题，但更多依赖于上下文或基础性较弱，而TMK感知生成产生了较高的原始多跳覆盖率，但基础性较低。这些结果表明，程序丰富性和自然措辞并不能保证表示基础性，这促使在AI辅助学习的评估数据集中进行显式的表示感知验证。
查看原文
查看缓存全文
缓存时间: 2026/06/12 08:53
# 构建用于程序推理的评估数据集：平衡自然性、基础性和多跳覆盖  
来源：https://arxiv.org/html/2606.12767  
11institutetext:佐治亚理工学院，美国佐治亚州亚特兰大  
11email:\{selshabrawy3,rdass7,ag25\}@gatech\.edu  

###### 摘要  

评估人工智能辅助学习系统中的程序推理能力，需要既贴近学习者风格、又基于系统应使用的教学知识的问题-答案数据集。我们研究基于 TMK 的问题生成策略如何影响程序推理和多跳推理的数据集质量。  

我们比较了三种策略：基于任务-方法-知识 (TMK) 模型的严格生成、先转录后经 TMK 过滤的生成，以及结合转录与结构化引导的 TMK 感知生成。为了评估生成的题目，我们引入了一个基于从 TMK 模型中提取的封闭式证据单元的基础性验证框架。该框架衡量答案是否得到底层表示的支持、问题是否独立自洽，以及问题是否针对多跳程序推理。  

在 23 个教学主题和 690 个生成的问题-答案对中，严格 TMK 生成表现出最强的整体质量，其中 96.5% 的问题有基础，92.6% 的问题可用。转录优先生成产生更多类似学习者的问题，但更多依赖于上下文或基础较弱；而 TMK 感知生成则产生较高的原始多跳覆盖率，但基础性较低。这些结果表明，程序丰富性和自然措辞并不能保证对表示的基础性支持，这激励了在人工智能辅助学习的评估数据集中进行显式的表示感知验证。  

**代码与工件**。提示模板、验证脚本、聚合代码、聚合结果以及生成的问答工件均可在项目仓库中获取：DILab-Ivy/tmk-procedural-qa-eval (https://github.com/DILab-Ivy/tmk-procedural-qa-eval)。受限的课程材料不包括在内。  

## 1 引言  

人工智能辅助学习系统越来越多地使用生成式和混合知识型人工智能方法来回答学生问题、提供解释并支持反思 [4 (https://arxiv.org/html/2606.12767#bib.bib6),13 (https://arxiv.org/html/2606.12767#bib.bib7)]。然而，评估这些系统是否能够进行程序推理仍然很困难。许多问答数据集测试模型能否产生正确或合理的答案，但不测试该答案是否忠实于系统应使用的结构化教学知识。  

程序推理尤其具有挑战性，因为它需要连接多个步骤、约束、目标和领域概念。在学习环境中，一个好的答案不仅要陈述正确的内容，还要解释过程如何运作、每个步骤为何重要，以及教学表示的不同部分如何支持该答案。  

本文研究如何利用任务-方法-知识 (TMK) 模型 [2 (https://arxiv.org/html/2606.12767#bib.bib4),15 (https://arxiv.org/html/2606.12767#bib.bib5)] 构建用于程序和多跳推理的评估问题-答案对。我们将 TMK 模型作为程序知识的结构化来源，并比较了三种从 TMK 和课程转录中派生问题的策略。我们提出以下研究问题：  

- **RQ1**：生成策略如何影响基础性质量？  
- **RQ2**：生成的问题中，有多少是独立自洽的，而非依赖于隐藏的转录上下文？  
- **RQ3**：哪种策略最能平衡基础性、独立自洽性和多跳程序覆盖？  

本文做出三项贡献。首先，我们比较了严格 TMK 生成、先转录后经 TMK 过滤的生成以及 TMK 感知生成这三种方法在构建程序推理评估数据方面的差异。其次，我们引入了一个针对生成的问题-答案对的封闭证据基础性验证框架。第三，我们在 23 个教学主题上评估了 690 个生成项，并识别出在基础性、独立自洽性和多跳标注方面的常见失败模式。  

## 2 背景与相关工作  

我们的工作连接了三个领域：用于学习的结构化程序知识、多跳与程序推理基准，以及基于基础性的生成问答对验证。  

### 2.1 用于学习的结构化程序知识  

基于知识的学习系统长期以来一直使用领域知识、技能和问题解决过程的显式表示。关于通用任务和任务结构分析的研究认为，专业能力不仅应建模为事实，还应建模为目标、程序以及支撑这些目标的知识 [3 (https://arxiv.org/html/2606.12767#bib.bib3),2 (https://arxiv.org/html/2606.12767#bib.bib4)]。这一观点与智能辅导系统密切相关，在这些系统中，知识组件和问题解决步骤的显式模型支持反馈和学习 [12 (https://arxiv.org/html/2606.12767#bib.bib9),19 (https://arxiv.org/html/2606.12767#bib.bib2)]。  

TMK 模型通过任务、方法和知识来表示程序技能：任务定义目标和成功或失败条件，方法描述程序，知识则将程序根植于概念、关系和断言中。  

先前的工作已使用 TMK 及相关表示来建模智能体行为，并为程序解释提供基于人工智能的辅导系统 [15 (https://arxiv.org/html/2606.12767#bib.bib5),8 (https://arxiv.org/html/2606.12767#bib.bib1),4 (https://arxiv.org/html/2606.12767#bib.bib6),13 (https://arxiv.org/html/2606.12767#bib.bib7)]。  

最近的文本到模型工作也研究了如何让大语言模型从教学材料中起草 TMK 模型，以供专家精炼 [5 (https://arxiv.org/html/2606.12767#bib.bib8)]。  

相比之下，我们使用 TMK 模型不将其作为运行时辅导底物或创作目标，而是作为构建和验证评估问题的结构化真实依据。  

### 2.2 评估多跳与程序推理  

多跳问答基准如 HotpotQA、MuSiQue 和 QASC 表明，数据集的构建选择会影响基准是否真正测试多步推理而非捷径检索 [20 (https://arxiv.org/html/2606.12767#bib.bib10),18 (https://arxiv.org/html/2606.12767#bib.bib11),11 (https://arxiv.org/html/2606.12767#bib.bib12)]。最近的程序推理基准，包括 ProcBench 和 PKR-QA，超越了孤立事实，转向有序步骤、依赖关系和程序知识图谱 [6 (https://arxiv.org/html/2606.12767#bib.bib13),16 (https://arxiv.org/html/2606.12767#bib.bib14)]。  

我们的工作是互补的：我们不单独提出一个新的模型性能基准，而是研究程序推理评估数据的构建过程。在学习系统中，一个问题可能自然且在教学中合理，但如果其答案依赖于目标教学表示之外的信息，仍然不适合使用。  

### 2.3 基础性与基于证据的验证  

大语言模型可以生成流畅但不受其来源支持或仅部分支持的输出 [7 (https://arxiv.org/html/2606.12767#bib.bib15),21 (https://arxiv.org/html/2606.12767#bib.bib16)]。先前关于归因和事实一致性的工作评估了生成答案是否得到显式证据的支持，包括 AIS、TRUE、FActScore 和归因问答 [17 (https://arxiv.org/html/2606.12767#bib.bib17),9 (https://arxiv.org/html/2606.12767#bib.bib18),14 (https://arxiv.org/html/2606.12767#bib.bib19),1 (https://arxiv.org/html/2606.12767#bib.bib20),10 (https://arxiv.org/html/2606.12767#bib.bib21)]。  

我们将这种基于来源的观点适应于程序性数据集构建。我们不针对开放文档或检索段落验证答案，而是针对从结构化程序模型中提取的封闭证据单元验证问答对。这使我们能够区分自然的类似转录的问题和其答案实际上受到预期表示支持的问题。  

## 3 方法  

参见标题  

图 1：问题-答案生成与验证流水线。转录和 TMK 模型用于在三种策略下生成候选项。针对封闭的 TMK 证据集验证项，随后进行程序化的证据成员检查并计算聚合指标。  

图 1 (https://arxiv.org/html/2606.12767#S3.F1) 总结了数据集构建和验证流水线。对于每个教学主题，我们使用一个课程转录和一个对应的 TMK 模型。转录提供面向学习者的措辞和示例，而 TMK 模型提供用于生成指导及基础性验证的结构化程序表示。  

### 3.1 生成策略  

我们比较三种策略。**TMK 感知生成**在生成时同时使用转录和 TMK 模型：转录支持自然的学生式措辞，而 TMK 提供程序结构。**严格 TMK 生成**将 TMK 视为主要真实来源，仅使用转录进行措辞；由于 TMK 编码为结构化的 JSON，包含正式的任务、方法、状态、转换和条件字段，这种策略可能产生更模式化的问题。**先转录后经 TMK 过滤的生成**首先从转录中生成自然问题，然后只保留或重写那些答案受 TMK 支持的项。  

初步分析显示，一些生成的项虽有基础，但作为基准问题较弱，因为它们依赖于隐藏的课堂上下文，或过度标注为多跳问题。因此，我们优化了提示，要求使用独立自洽的措辞和保守的推理类型标签。最终结果使用这些优化后的提示。  

### 3.2 基础性验证  

为了验证基础性，我们从每个 TMK 模型中提取一组封闭的证据单元。每个单元对应于任务、方法、概念、实例、关系、断言或属性中的一个字段。验证器将每个问答对分类为**有基础**、**部分有基础**或**无支持**。我们使用“无支持”来指代答案未根植于封闭 TMK 证据集的项。对于每个项，验证器还从该封闭集中选择支持性证据单元。然后我们程序化地验证所选证据标识符是否属于封闭证据集。这验证了证据的成员资格，但不验证证据的充分性；我们在第 5 节 (https://arxiv.org/html/2606.12767#S5) 中回到这一局限性。  

### 3.3 实验设置与指标  

我们评估来自佐治亚理工学院“基于知识的人工智能”课程的 23 个主题，包括分类、规划、语义网络、框架、约束传播、案例推理、诊断、脚本、产生式系统、版本空间、常识推理和基于解释的学习。对于每个主题，我们使用选自课程材料的课程转录和对应的 TMK 模型。  

对于每个主题和每种生成策略，我们生成 10 个问答对，共 690 个项。  

每个项评估基础性、独立自洽性和推理类型。如果一个问题无需转录、幻灯片、先前问题或课堂讨论即可理解，则视为独立自洽。一个问题只有在其答案需要连接至少两个不同的证据（如程序步骤、约束、概念或表示）时才被视为多跳问题。我们将项定义为**可用**，当它既有基础又独立自洽时：  

可用(q,a)=有基础(q,a)∧独立自洽(q)。  

我们报告有基础、部分有基础、无支持、独立自洽、可用、多跳、有基础多跳和可用多跳的比率。  

## 4 结果与讨论  

我们报告了 690 个生成的问答对的结果，每种生成策略 230 个项。本节中的所有百分比均基于每种策略生成的 230 个项计算，除非另有说明。  

### 4.1 整体数据集质量  

图 2(a) (https://arxiv.org/html/2606.12767#S4.F2.sf1) 总结了基础性、独立自洽性和可用性。严格 TMK 生成整体表现最佳，产生了最高的基础性比率、独立自洽性比率和可用性比率。它没有产生任何无支持的项，仅产生了 8 个部分有基础的项（占 230 个的 3.5%）。  

转录优先生成表现次佳：事后 TMK 过滤恢复了大部分基础性质量，但依赖上下文的措辞和无支持的转录细节仍然存在。TMK 感知生成在基础性方面表现最弱，这表明在生成时结合转录和 TMK 可能导致模型将受支持的结构与无支持的转录细节混合。  

参见标题  

(a) 整体质量。  

参见标题  

(b) 多跳覆盖率。  

图 2：按生成策略划分的质量与多跳覆盖率。  

### 4.2 多跳程序覆盖率  

图 2(b) (https://arxiv.org/html/2606.12767#S4.F2.sf2) 显示，原始多跳覆盖率可能具有误导性。TMK 感知生成具有最高的原始多跳率，但其可用多跳率急剧下降，因为许多项没有基础或不独立自洽。严格 TMK 生成的原始多跳覆盖率略低，但可用多跳率最高，产生了 168 个可用多跳项。这使得它成为既程序丰富又表示有基础的评估数据的最强策略。  

### 4.3 自然性、独立自洽性与基础性  

独立自洽性是质量损失的主要来源。一个问题可能有基础，但如果它依赖于隐藏的课程上下文（例如引用“该示例”或“我们讨论过的过程”），它仍然不适合作为基准项。转录优先策略产生了最多不独立自洽的问题，表明类似学习者的措辞可能保留不适合独立评估的课堂上下文。  

同时，严格 TMK 生成不应被解释为最自然的策略。由于它锚定在任务、方法、状态、转换和条件的正式 JSON 结构中，它可能产生更模式化的问题。例如，针对分类的一个严格 TMK 项问道：“为了完成整体的动物到鸟类分类过程，必须发生哪些成功的检查序列？请按顺序描述每一步所需的条件。”尽管有基础，但措辞反映了 TMK 模型的程序控制结构，而不是学习者通常询问分类的方式。一个更接近学习者的转录优先项问道：“你能带我走一遍智能体实际采取的步骤，从观察到的动物到最终的鸟类列表，以及每一步需要满足什么条件才能继续前进？”  

因此，核心权衡不在于好与坏的生成，而在于自然的学生式语言与结构化表示之间忠实对齐。  

### 4.4 定性失败模式  

表 1 (https://arxiv.org/html/2606.12767#S4.T1) 展示了 TMK 感知策略中的代表性验证失败案例。这些例子说明了为什么原始的程序丰富性不足以保证基准质量。在几个案例中，生成的项似乎需要多步推理，但答案依赖于 TMK 证据集中不完全可用的信息，或者依赖于前一个问题的上下文。  

表 1：TMK 感知生成中的代表性失败模式。  

| 失败模式 | 示例模式 | 验证拒绝原因 |
| --- | --- | --- |
| 无支持的因果链接 | 答案从示例推断因果规则，但 TMK 模型仅列出了... | （原文后续未提供完整表格，根据上下文此处为示例表格的开始。需要翻译已给出的部分。但注意用户只给了一部分，我应当只翻译给出的内容。表格内容不完整，但可以按现有文字翻译。） |

根据给出的内容，表格行仅有标题行和第一行。我翻译为：  

失败模式：无支持的因果链接  
示例模式：答案从示例推断因果规则，即使 TMK 模型仅列出了...  
为什么验证拒绝：...（原文中未给出完整内容，但按原文翻译）。实际上用户提供的文本在“lists”后截止，可能原有表格未完整复制。为了忠实，我只翻译给出的部分。注意用户消息中表格最后是“only lists”，后面没有内容。我按现有内容翻译，确保格式正确。由于是markdown表格，需要保持结构。翻译如下：  

| 失败模式 | 示例模式 | 验证拒绝原因 |
| --- | --- | --- |
| 无支持的因果链接 | 答案从示例推断因果规则，即使 TMK 模型仅列出了 | （原因部分原文缺失，但为了格式完整，我保留空单元格？但最好按原文只写注释。由于原文在“only lists”后结束，没有更多文字，我可以仅写“（原文不完整）”或直接省略。但作为翻译，应忠实于原文。原文是“The answer infers causal rules from examples even though the TMK model only lists”，我翻译为“答案从示例推断因果规则，即使 TMK 模型仅列出了”。后面没有内容。在表格中，第三列应该为空或保留原文。由于没有给出，我按照原文翻译后，第三列留空？但原文表格中第三列有文字“Why validation rejects it”，但该行第三列没有给出。根据常见格式，可能该行第三列是“Unsupported causal links”的对应原因描述。但由于没给，我谨慎处理。更好的做法是只翻译给出的部分，不添加内容。但为了表格完整性，我可以将第三列翻译为“验证拒绝原因”的对应内容，但原文缺失。我决定将表格第一行标题翻译，数据行只翻译前两列，第三列保留空白或写“（未提供）”。但为了符合markdown，我保持行数一致。由于是示例，用户可能期望我完整输出，但原文只给出了部分。我按现有文字：第一列“Unsupported causal links”，第二列“The answer infers causal rules from examples even though the TMK model only lists”，第三列空。在翻译中，我保留空单元格。或者，鉴于用户提供的文本就在“only lists”后截止，可能是一个不完整的句子。为了不猜测，我只翻译成中文，第三列留空。但最好检查一下：用户消息最后是“lists”，没有句号，可能原文如此。我按此处理。另外注意表格标题行有“Failure mode”、“Example pattern”、“Why validation rejects it”，需要翻译。同时注意该行应该在表中，但用户消息中表格前有“Table 1:Representative failure modes from TMK\-aware generation\.Failure modeExample patternWhy validation rejects itUnsupported causal linksThe answer infers causal rules from examples even though the TMK model only lists” 实际上这些文字是连在一起的，没有换行。在原始markdown中可能是一个表格。为了正确，我应当构建一个三列表格。根据用户输入，第一行是表头，第二行是数据。我翻译如下：  

表 1：TMK 感知生成中的代表性失败模式。  

| 失败模式 | 示例模式 | 验证拒绝原因 |
| --- | --- | --- |
| 无支持的因果链接 | 答案从示例推断因果规则，即使 TMK 模型仅列出了 |  |

注意第三列留空，因为原文没有给。或者可以写“（原文不完整）”，但为严格起见，留空。另外，注意原文中“lists”后可能原本有内容但被截断，我保留原样。翻译完成。  

整体上，响应应该只包含翻译后的markdown。确保所有URL不变，引用标记如[4]不变。注意特殊符号如“~”和“\_”等。另外注意脚注或作者信息等保留原文。  

开始输出翻译。# 构建用于程序推理的评估数据集：平衡自然性、基础性和多跳覆盖  
来源：https://arxiv.org/html/2606.12767  
11institutetext:佐治亚理工学院，美国佐治亚州亚特兰大  
11email:\{selshabrawy3,rdass7,ag25\}@gatech\.edu  

###### 摘要  

评估人工智能辅助学习系统中的程序推理能力，需要既贴近学习者风格、又基于系统应使用的教学知识的问题-答案数据集。我们研究基于 TMK 的问题生成策略如何影响程序推理和多跳推理的数据集质量。  

我们比较了三种策略：基于任务-方法-知识 (TMK) 模型的严格生成、先转录后经 TMK 过滤的生成，以及结合转录与结构化引导的 TMK 感知生成。为了评估生成的题目，我们引入了一个基于从 TMK 模型中提取的封闭式证据单元的基础性验证框架。该框架衡量答案是否得到底层表示的支持、问题是否独立自洽，以及问题是否针对多跳程序推理。  

在 23 个教学主题和 690 个生成的问题-答案对中，严格 TMK 生成表现出最强的整体质量，其中 96.5% 的问题有基础，92.6% 的问题可用。转录优先生成产生更多类似学习者的问题，但更多依赖于上下文或基础较弱；而 TMK 感知生成则产生较高的原始多跳覆盖率，但基础性较低。这些结果表明，程序丰富性和自然措辞并不能保证对表示的基础性支持，这激励了在人工智能辅助学习的评估数据集中进行显式的表示感知验证。  

**代码与工件**。提示模板、验证脚本、聚合代码、聚合结果以及生成的问答工件均可在项目仓库中获取：DILab-Ivy/tmk-procedural-qa-eval (https://github.com/DILab-Ivy/tmk-procedural-qa-eval)。受限的课程材料不包括在内。  

## 1 引言  

人工智能辅助学习系统越来越多地使用生成式和混合知识型人工智能方法来回答学生问题、提供解释并支持反思 [4 (https://arxiv.org/html/2606.12767#bib.bib6),13 (https://arxiv.org/html/2606.12767#bib.bib7)]。然而，评估这些系统是否能够进行程序推理仍然很困难。许多问答数据集测试模型能否产生正确或合理的答案，但不测试该答案是否忠实于系统应使用的结构化教学知识。  

程序推理尤其具有挑战性，因为它需要连接多个步骤、约束、目标和领域概念。在学习环境中，一个好的答案不仅要陈述正确的内容，还要解释过程如何运作、每个步骤为何重要，以及教学表示的不同部分如何支持该答案。  

本文研究如何利用任务-方法-知识 (TMK) 模型 [2 (https://arxiv.org/html/2606.12767#bib.bib4),15 (https://arxiv.org/html/2606.12767#bib.bib5)] 构建用于程序和多跳推理的评估问题-答案对。我们将 TMK 模型作为程序知识的结构化来源，并比较了三种从 TMK 和课程转录中派生问题的策略。我们提出以下研究问题：  

- **RQ1**：生成策略如何影响基础性质量？  
- **RQ2**：生成的问题中，有多少是独立自洽的，而非依赖于隐藏的转录上下文？  
- **RQ3**：哪种策略最能平衡基础性、独立自洽性和多跳程序覆盖？  

本文做出三项贡献。首先，我们比较了严格 TMK 生成、先转录后经 TMK 过滤的生成以及 TMK 感知生成这三种方法在构建程序推理评估数据方面的差异。其次，我们引入了一个针对生成的问题-答案对的封闭证据基础性验证框架。第三，我们在 23 个教学主题上评估了 690 个生成项，并识别出在基础性、独立自洽性和多跳标注方面的常见失败模式。  

## 2 背景与相关工作  

我们的工作连接了三个领域：用于学习的结构化程序知识、多跳与程序推理基准，以及基于基础性的生成问答对验证。  

### 2.1 用于学习的结构化程序知识  

基于知识的学习系统长期以来一直使用领域知识、技能和问题解决过程的显式表示。关于通用任务和任务结构分析的研究认为，专业能力不仅应建模为事实，还应建模为目标、程序以及支撑这些目标的知识 [3 (https://arxiv.org/html/2606.12767#bib.bib3),2 (https://arxiv.org/html/2606.12767#bib.bib4)]。这一观点与智能辅导系统密切相关，在这些系统中，知识组件和问题解决步骤的显式模型支持反馈和学习 [12 (https://arxiv.org/html/2606.12767#bib.bib9),19 (https://arxiv.org/html/2606.12767#bib.bib2)]。  

TMK 模型通过任务、方法和知识来表示程序技能：任务定义目标和成功或失败条件，方法描述程序，知识则将程序根植于概念、关系和断言中。  

先前的工作已使用 TMK 及相关表示来建模智能体行为，并为程序解释提供基于人工智能的辅导系统 [15 (https://arxiv.org/html/2606.12767#bib.bib5),8 (https://arxiv.org/html/2606.12767#bib.bib1),4 (https://arxiv.org/html/2606.12767#bib.bib6),13 (https://arxiv.org/html/2606.12767#bib.bib7)]。  

最近的文本到模型工作也研究了如何让大语言模型从教学材料中起草 TMK 模型，以供专家精炼 [5 (https://arxiv.org/html/2606.12767#bib.bib8)]。  

相比之下，我们使用 TMK 模型不将其作为运行时辅导底物或创作目标，而是作为构建和验证评估问题的结构化真实依据。  

### 2.2 评估多跳与程序推理  

多跳问答基准如 HotpotQA、MuSiQue 和 QASC 表明，数据集的构建选择会影响基准是否真正测试多步推理而非捷径检索 [20 (https://arxiv.org/html/2606.12767#bib.bib10),18 (https://arxiv.org/html/2606.12767#bib.bib11),11 (https://arxiv.org/html/2606.12767#bib.bib12)]。最近的程序推理基准，包括 ProcBench 和 PKR-QA，超越了孤立事实，转向有序步骤、依赖关系和程序知识图谱 [6 (https://arxiv.org/html/2606.12767#bib.bib13),16 (https://arxiv.org/html/2606.12767#bib.bib14)]。  

我们的工作是互补的：我们不单独提出一个新的模型性能基准，而是研究程序推理评估数据的构建过程。在学习系统中，一个问题可能自然且在教学中合理，但如果其答案依赖于目标教学表示之外的信息，仍然不适合使用。  

### 2.3 基础性与基于证据的验证  

大语言模型可以生成流畅但不受其来源支持或仅部分支持的输出 [7 (https://arxiv.org/html/2606.12767#bib.bib15),21 (https://arxiv.org/html/2606.12767#bib.bib16)]。先前关于归因和事实一致性的工作评估了生成答案是否得到显式证据的支持，包括 AIS、TRUE、FActScore 和归因问答 [17 (https://arxiv.org/html/2606.12767#bib.bib17),9 (https://arxiv.org/html/2606.12767#bib.bib18),14 (https://arxiv.org/html/2606.12767#bib.bib19),1 (https://arxiv.org/html/2606.12767#bib.bib20),10 (https://arxiv.org/html/2606.12767#bib.bib21)]。  

我们将这种基于来源的观点适应于程序性数据集构建。我们不针对开放文档或检索段落验证答案，而是针对从结构化程序模型中提取的封闭证据单元验证问答对。这使我们能够区分自然的类似转录的问题和其答案实际上受到预期表示支持的问题。  

## 3 方法  

参见标题  

图 1：问题-答案生成与验证流水线。转录和 TMK 模型用于在三种策略下生成候选项。针对封闭的 TMK 证据集验证项，随后进行程序化的证据成员检查并计算聚合指标。  

图 1 (https://arxiv.org/html/2606.12767#S3.F1) 总结了数据集构建和验证流水线。对于每个教学主题，我们使用一个课程转录和一个对应的 TMK 模型。转录提供面向学习者的措辞和示例，而 TMK 模型提供用于生成指导及基础性验证的结构化程序表示。  

### 3.1 生成策略  

我们比较三种策略。**TMK 感知生成**在生成时同时使用转录和 TMK 模型：转录支持自然的学生式措辞，而 TMK 提供程序结构。**严格 TMK 生成**将 TMK 视为主要真实来源，仅使用转录进行措辞；由于 TMK 编码为结构化的 JSON，包含正式的任务、方法、状态、转换和条件字段，这种策略可能产生更模式化的问题。**先转录后经 TMK 过滤的生成**首先从转录中生成自然问题，然后只保留或重写那些答案受 TMK 支持的项。  

初步分析显示，一些生成的项虽有基础，但作为基准问题较弱，因为它们依赖于隐藏的课堂上下文，或过度标注为多跳问题。因此，我们优化了提示，要求使用独立自洽的措辞和保守的推理类型标签。最终结果使用这些优化后的提示。  

### 3.2 基础性验证  

为了验证基础性，我们从每个 TMK 模型中提取一组封闭的证据单元。每个单元对应于任务、方法、概念、实例、关系、断言或属性中的一个字段。验证器将每个问答对分类为**有基础**、**部分有基础**或**无支持**。我们使用“无支持”来指代答案未根植于封闭 TMK 证据集的项。对于每个项，验证器还从该封闭集中选择支持性证据单元。然后我们程序化地验证所选证据标识符是否属于封闭证据集。这验证了证据的成员资格，但不验证证据的充分性；我们在第 5 节 (https://arxiv.org/html/2606.12767#S5) 中回到这一局限性。  

### 3.3 实验设置与指标  

我们评估来自佐治亚理工学院“基于知识的人工智能”课程的 23 个主题，包括分类、规划、语义网络、框架、约束传播、案例推理、诊断、脚本、产生式系统、版本空间、常识推理和基于解释的学习。对于每个主题，我们使用选自课程材料的课程转录和对应的 TMK 模型。  

对于每个主题和每种生成策略，我们生成 10 个问答对，共 690 个项。  

每个项评估基础性、独立自洽性和推理类型。如果一个问题无需转录、幻灯片、先前问题或课堂讨论即可理解，则视为独立自洽。一个问题只有在其答案需要连接至少两个不同的证据（如程序步骤、约束、概念或表示）时才被视为多跳问题。我们将项定义为**可用**，当它既有基础又独立自洽时：  

可用(q,a)=有基础(q,a)∧独立自洽(q)。  

我们报告有基础、部分有基础、无支持、独立自洽、可用、多跳、有基础多跳和可用多跳的比率。  

## 4 结果与讨论  

我们报告了 690 个生成的问答对的结果，每种生成策略 230 个项。本节中的所有百分比均基于每种策略生成的 230 个项计算，除非另有说明。  

### 4.1 整体数据集质量  

图 2(a) (https://arxiv.org/html/2606.12767#S4.F2.sf1) 总结了基础性、独立自洽性和可用性。严格 TMK 生成整体表现最佳，产生了最高的基础性比率、独立自洽性比率和可用性比率。它没有产生任何无支持的项，仅产生了 8 个部分有基础的项（占 230 个的 3.5%）。  

转录优先生成表现次佳：事后 TMK 过滤恢复了大部分基础性质量，但依赖上下文的措辞和无支持的转录细节仍然存在。TMK 感知生成在基础性方面表现最弱，这表明在生成时结合转录和 TMK 可能导致模型将受支持的结构与无支持的转录细节混合。  

参见标题  

(a) 整体质量。  

参见标题  

(b) 多跳覆盖率。  

图 2：按生成策略划分的质量与多跳覆盖率。  

### 4.2 多跳程序覆盖率  

图 2(b) (https://arxiv.org/html/2606.12767#S4.F2.sf2) 显示，原始多跳覆盖率可能具有误导性。TMK 感知生成具有最高的原始多跳率，但其可用多跳率急剧下降，因为许多项没有基础或不独立自洽。严格 TMK 生成的原始多跳覆盖率略低，但可用多跳率最高，产生了 168 个可用多跳项。这使得它成为既程序丰富又表示有基础的评估数据的最强策略。  

### 4.3 自然性、独立自洽性与基础性  

独立自洽性是质量损失的主要来源。一个问题可能有基础，但如果它依赖于隐藏的课程上下文（例如引用“该示例”或“我们讨论过的过程”），它仍然不适合作为基准项。转录优先策略产生了最多不独立自洽的问题，表明类似学习者的措辞可能保留不适合独立评估的课堂上下文。  

同时，严格 TMK 生成不应被解释为最自然的策略。由于它锚定在任务、方法、状态、转换和条件的正式 JSON 结构中，它可能产生更模式化的问题。例如，针对分类的一个严格 TMK 项问道：“为了完成整体的动物到鸟类分类过程，必须发生哪些成功的检查序列？请按顺序描述每一步所需的条件。”尽管有基础，但措辞反映了 TMK 模型的程序控制结构，而不是学习者通常询问分类的方式。一个更接近学习者的转录优先项问道：“你能带我走一遍智能体实际采取的步骤，从观察到的动物到最终的鸟类列表，以及每一步需要满足什么条件才能继续前进？”  

因此，核心权衡不在于好与坏的生成，而在于自然的学生式语言与结构化表示之间忠实对齐。  

### 4.4 定性失败模式  

表 1 (https://arxiv.org/html/2606.12767#S4.T1) 展示了 TMK 感知策略中的代表性验证失败案例。这些例子说明了为什么原始的程序丰富性不足以保证基准质量。在几个案例中，生成的项似乎需要多步推理，但答案依赖于 TMK 证据集中不完全可用的信息，或者依赖于前一个问题的上下文。  

表 1：TMK 感知生成中的代表性失败模式。  

| 失败模式 | 示例模式 | 验证拒绝原因 |
| --- | --- | --- |
| 无支持的因果链接 | 答案从示例推断因果规则，即使 TMK 模型仅列出了 |  |
构建程序性推理评估数据集：平衡自然性、基础性和多跳覆盖

相似文章

制作用于微调的合成数据集

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

面向时序知识图谱推理的显著性感知评估

当推理监督适得其反：基于TTCW的长篇文学评论生成

A2RBench：一种自动化的可形式化验证抽象推理基准生成范式

提交意见反馈