用于显式问题求解器建模的认知智能体编译
摘要
本文介绍了认知智能体编译(CAC),这是一个利用教师大语言模型(Teacher LLMs)将问题求解知识编译为显式、可检查智能体的框架,专用于教育应用。该框架旨在通过将知识表示与策略及验证规则分离,解决标准大语言模型中缺乏可控性和可解释性的问题。
arXiv:2605.07040v1 公告类型:新文章
摘要:大型语言模型(LLMs)广泛应用于辅导、反馈生成和内容创作,但其广泛的预训练使其难以约束,也无法作为可控学习者的良好替代品。教育系统通常需要可检查和可编辑的知识状态:教育者希望了解系统假定学习者掌握了哪些知识,而当系统能够以显式的技能、误解和策略来解释其行为时,学习者将受益匪浅。受认知架构的启发,我们提出了认知智能体编译(CAC),这是一种利用强大的教师大语言模型将问题求解知识编译为显式目标智能体的框架。CAC 分离了(i)知识表示、(ii)问题求解策略以及(iii)验证与更新规则,旨在使教育环境下的有限范围问题求解更具可检查性和可编辑性。我们展示了一个使用小语言模型实现的早期概念验证,该验证揭示了关键的设计权衡,特别是显式控制与可扩展泛化之间的权衡,并将 CAC 定位为迈向教育应用有限知识人工智能的初步步骤。
查看缓存全文
缓存时间: 2026/05/11 06:42
# 用于显式问题解决者建模的认知智能体编译
来源: https://arxiv.org/html/2605.07040
11机构说明: 美国卡内基梅隆大学, 匹兹堡 PA 15213
11邮箱: \{donim,cprose,jstamper\}@andrew\.cmu\.edu ###### 摘要
大型语言模型(LLMs)被广泛用于辅导、反馈生成和内容创作,但其广泛的预训练使其难以约束,且作为可控学习者的替代品表现不佳。教育系统通常需要可检查和可编辑的知识状态:教育者希望了解系统假设学习者知道什么,而学习者在系统能够根据显式的技能、误解和策略证明其行为合理性时受益。受认知架构的启发,我们提出了认知智能体编译(Cognitive Agent Compilation, CAC)框架,该框架利用强大的教师 LLM 将问题解决知识编译到显式的目标智能体中。CAC 分离了(i)知识表示、(ii)问题解决策略以及(iii)验证和更新规则,旨在使教育环境中的有界问题解决更具可检查性和可编辑性。我们展示了一个基于小语言模型实现的早期概念验证,揭示了关键的设计权衡,特别是在显式控制和可扩展泛化之间,并将 CAC 定位为迈向教育应用中有限知识 AI 的初步步骤。
## 1 引言
大型语言模型(LLMs)已迅速整合到教育环境中,学生和老师利用它们完成各种任务。这一趋势在人工智能教育(AIED)研究中同样普遍,许多研究提出利用 LLM 作为教师或代理学生以缓解资源瓶颈。然而,这些尝试中的一个共同问题是 LLM 与实际人类认知之间的差异。大量证据表明,即使是思维链(Chain of Thought)或推理模型,其运作方式也与人类思维过程根本不同\[15 (https://arxiv.org/html/2605.07040#bib.bib1)\]。最值得注意的是,LLM 表现出一个显著的弱点,即无法“抑制知识生成”,也就是模拟不知情的状态。这种内在局限性使得原始 LLM 不适合作为学生学习者的忠实代理。
LLM 已在许多问题解决领域展现出接近或超过人类专家的性能。然而,“知道”一个概念和“解释它以便他人理解”是截然不同的认知能力。即使是人类学科专家,如果没有适当的教学培训,也经常难以有效教学\[18 (https://arxiv.org/html/2605.07040#bib.bib3)\]。因此,LLM 吸收了海量不受约束的信息,因此拥有广泛的知识但缺乏教学直觉,它们是否能有效发挥在教育应用中的潜力值得怀疑。关键问题依然存在:LLM 如何有效地为缺乏该知识的人类搭建知识获取的脚手架?
为此,我们提出了认知智能体编译(CAC)框架,该框架将有界且可检查的问题解决行为编译为显式的目标智能体。教师 LLM 生成显式的、可执行的人工制品,如知识项目、适用条件和更新规则,以定义智能体的行为。如果认知智能体是使用显式的、确定性的操作构建的,而不是完全依赖不透明的 LLM 内部机制,那么其行为可以更直接地归因于声明的知识和控制结构。通过将教师 LLM 的角色限制在生成和修订可解释的知识人工制品上,CAC 旨在揭示成功所需的哪些知识假设。最终系统的解释价值取决于最终行为在多大程度上由显式结构而非潜在的先验知识所承载。因此,我们将 CAC 视为一种有界且可检查的问题解决模型,而非经过验证的认知复制品,它可能支持可解释的学习者建模研究\[21 (https://arxiv.org/html/2605.07040#bib.bib2)\]。
这一视角表明了几种在学习科学中的潜在应用,包括在教育环境中更易于检查和编辑的问题解决模型。为了探索这一方向,我们展示了一个用小语言模型实现的概念验证,并用以揭示从预训练语言模型中编译具有教育意义的问题解决结构时出现的关键技术和概念挑战。
## 2 相关工作
### 2.1 可解释的学习者模型与透明度
可解释的学习者模型强调,学习者模型的目的不仅仅是预测,而是支持解释、诊断和干预;仅靠机器学习往往无法充分指定教育所需的表示承诺\[21 (https://arxiv.org/html/2605.07040#bib.bib2)\]。开放学习者模型通过邀请学习者进入模型,扩展了这一逻辑,使其能够对系统的信念进行反思和协商\[6 (https://arxiv.org/html/2605.07040#bib.bib7)\]。更广泛地说,教育中的可解释人工智能(XAI)确定了与教学法、问责制和利益相关者角色相关的不同可解释性要求\[10 (https://arxiv.org/html/2605.07040#bib.bib11)\]。这些线索激发了 CAC 的主要目标:具有声明的、可编辑的知识状态且解释基于该状态的智能体。
### 2.2 学习者建模与认知模型精炼
知识追踪(Knowledge Tracing)模型通过随交互日志更新的显式潜在变量来建模程序性知识的获取\[8 (https://arxiv.org/html/2605.07040#bib.bib12)\]。深度知识追踪通过学习知识状态的隐式表示提高了预测能力\[20 (https://arxiv.org/html/2605.07040#bib.bib15)\],但这以牺牲可解释性为代价。在认知建模的谱系中,学习因子分析(Learning Factors Analysis, LFA)提供了一种通过提出知识组件(KCs)的替代分解方法并测试其预测充分性来评估和改进认知模型的方法\[7 (https://arxiv.org/html/2605.07040#bib.bib16)\]。自动学生模型改进(Automated Student Model Improvement)进一步利用数据迭代优化学生模型\[11 (https://arxiv.org/html/2605.07040#bib.bib17)\]。CAC 将这些思想既作为设计锚点(KC 作为显式单元)也作为潜在评估目标(显式分解是否有效?)。
### 2.3 作为智能体的学生与辅导系统作者
SimStudent 和学徒学习者模型将学习者视为可以被教导的智能体,从而启用辅导系统作者和对教学策略的分析\[16 (https://arxiv.org/html/2605.07040#bib.bib21)\]。示例追踪辅导系统展示了如何通过对正确行为的显式追踪来结构化辅导决策\[1 (https://arxiv.org/html/2605.07040#bib.bib19)\],而基于学徒学习者模型的领域通用辅导系统作者旨在减少特定领域的工程开销\[13 (https://arxiv.org/html/2605.07040#bib.bib20)\]。CAC 继承了同样的承诺:教育系统从显式的、可操作的问题解决表示中受益。
### 2.4 认知架构
认知架构代表了一个跨越四十多年的研究谱系,旨在通过可解释的算法重现人类认知过程。ACT-R、SOAR 和 EPIC 等代表性模型已被设计用于各种认知建模目的。其中,ACT-R 已成为主要学习科学方法的理论基础,包括贝叶斯知识追踪\[8 (https://arxiv.org/html/2605.07040#bib.bib12)\]、性能因子分析\[19 (https://arxiv.org/html/2605.07040#bib.bib18)\]和加性因子模型\[7 (https://arxiv.org/html/2605.07040#bib.bib16)\]。
由于单个认知单元必须被明确定义为可执行代码,传统的认知架构允许高度精确的建模,但由于构建它们所需的领域专家劳动,其可扩展性有限。即使在 LLM 出现之前,也曾有尝试将自然语言处理整合到这些系统中,如 NL-Soar\[12 (https://arxiv.org/html/2605.07040#bib.bib14)\]。最近,LLM 的泛化性能催生了将其与基础认知架构融合的倡议,以 CoALA\[22 (https://arxiv.org/html/2605.07040#bib.bib9)\]为例。本研究继承并探索了这一协同研究轨迹。
## 3 CAC 框架
### 3.1 核心理念
CAC 是一个管道,用于将强模型的问题解决能力转换为在显式知识表示上运行的目标智能体,尽可能减少不透明的推理。目标不仅仅是压缩,而是显式性:部署的智能体应暴露其知识状态(它知道什么,不知道什么,持有什么误解),其行为应归因于该状态。
参见标题图 1:认知智能体编译(CAC)框架概览。该框架通过故障驱动的学习循环运行,其中认知智能体尝试解决问题,生成问题解决历史。教师大型语言模型分析这些轨迹中的故障或次优路径,并将纠正性知识提炼到显式知识库(KB)中,提示智能体重试直至成功。
### 3.2 输入和输出
#### 3.2.1 输入
- •问题内容:任务规范、领域约束以及针对候选 KC 和误解的具体问题实例。
- •教师大型语言模型:配备工具(求解器、评估器、符号执行器)的强模型,充当诊断和编译引擎。
- •目标智能体规范:认知智能体及其显式知识库的结构定义(例如,KC 图、规则库、允许的表示类型)。
#### 3.2.2 输出
- •经过精炼的认知智能体,具有更新的、人类可读的显式知识库,以及记录知识获取过程的已验证问题解决历史。
### 3.3 CAC 循环
CAC 框架通过四个具体步骤操作化故障驱动的学习循环,如系统图所示。图 1 (https://arxiv.org/html/2605.07040#S3.F1) 可视化了 CAC 循环的顺序。
#### 3.3.1 步骤 1:解决问题。
认知智能体接收问题内容,并尝试通过严格依赖其当前的显式知识库来解决问题。这次尝试生成了详细的问题解决历史,记录了中间推理步骤、应用的过程规则以及检索到的知识块。
#### 3.3.2 步骤 2:分析解决方案故障。
教师大型语言模型充当评估者和诊断者。它检查问题解决历史是否符合过程约束和最终正确性。如果检测到故障或次优路径,教师分析轨迹以识别导致错误的特定缺失知识组件(KCs)、误解触发器或误用的策略。
#### 3.3.3 步骤 3:更新知识库。
根据诊断分析,教师制定必要的纠正性知识并将其注入回显式知识库。与通用的自我精炼\[14 (https://arxiv.org/html/2605.07040#bib.bib36)\]不同,这些更新被编译成显式的、可检查的人工制品,如新的规则库、程序草图或重新结构的检索项目,而不是隐含在潜在权重中。
#### 3.3.4 步骤 4:使用更新的 KB 重试直至成功。
认知智能体重新尝试解决问题。由于其底层的显式知识库在步骤 3 中发生了根本性修改,智能体的推理轨迹相应改变。这种验证和更新循环重复进行,直到最终答案和中间过程约束完全满足,确认智能体使用更新的知识库解决了任务。
### 3.4 设计知识库
定义存储在知识库中的知识的表示模式,并设计认知智能体如何依赖于它,是 CAC 框架中最关键的组件。例如,如果认知智能体基于 ACT-R,其中所有产生式规则和陈述性记忆都可以定义为显式的 Lisp 代码片段,那么知识可以形式化为符合有效 ACT-R 语法的 Lisp 代码片段。因此,教师 LLM 需要深刻理解 ACT-R 的操作规则以生成这些结构。
设计此知识模式的核心原则有两点:首先,教师 LLM 必须能够预测添加或移除特定知识元素导致的行为变化;其次,它必须能够仅通过修改知识库来纠正认知智能体的问题解决轨迹,而不干预任何其他认知组件。虽然经典认知架构可以相对清晰地阐述这一机制,但它们存在因精确代码生成所需的过多上下文而使教师 LLM 不堪重负的风险。为了解决这一限制,第 5 节 (https://arxiv.org/html/2605.07040#S5) 介绍了设计更具可扩展性的基于自然语言的知识库的示例。
## 4 设计目标与预期应用
CAC 框架的设计考虑了几个教育目标,但当前论文并未针对学生轨迹验证这些目标。因此,以下的讨论应被视为一组设计目标和评估标准,而非既定能力。
### 4.1 有限知识下的学生模拟
CAC 的一个主要设计目标是通过从知识库中选择性地移除特定知识,支持在受限知识池下对学生问题解决轨迹的估计。如果此类干预以可预测的方式一致地改变问题的可解性,它们将为知识追踪问题的更显式处理提供一条可能的途径:“给定学生的特定知识状态,是否可以预测问题的可解性?”
如果已知每个知识元素的先验概率分布,并且编译后的智能体针对学生行为进行了验证,那么这种设置可以为从 ITS 交互日志中的符号知识状态预测问题可解性提供一条可能的途径。现有的知识追踪方法往往无法以足够的粒度建模知识组件(KCs)以处理“单一问题的多种解决方案”或“多步骤问题”。相比之下,CAC 旨在使关于所需 KC 的假设显式化,从而支持更可检查的干预设计。
### 4.2 识别定义良好的知识组件
第二个设计目标是提供关于什么构成“定义良好”的 KC 的语义直觉。如果通过 CAC 提取的特定 KC 可以应用于解决相同基础知识的各种问题类型,这表明是广泛定义的知识,而不是特定于问题的琐碎知识。
关于评估知识依赖性的相关工作认为,一个问题在教育上是有用的,因为解决它取决于目标知识,而不仅仅是广泛的基础知识\[17 (https://arxiv.org/html/2605.07040#bib.bib4)\]。因此,CAC 可能补充 KC 识别方法,如学习曲线分析,后者严重依赖经验数据且容易受到噪声影响。
### 4.3 迈向声明优先的 i相似文章
COOPA:一种面向运筹学问题的模块化LLM智能体架构
本文介绍了COOPA,一种面向运筹学问题的模块化LLM智能体架构,它结合了基于迭代置信度的建模、元素级溯源和多求解器路由。在八个LLM主干网络和四个基线的评估中,COOPA在六个主干网络上取得了最佳的宏平均准确率,并在最强基线的基础上提升了最多6.7个百分点。
具身CAD:基于求解器的LLM智能体用于参数化B-Rep装配建模
介绍具身CAD(Embodied CAD),一个闭环框架,将LLM智能体置于CAD执行环境中,用于参数化B-Rep装配建模,利用求解器反馈进行规划和优化。
PrologMCP:面向LLM代理的标准化Prolog工具接口
介绍了PrologMCP,这是一个开源服务器,通过模型上下文协议(MCP)将Prolog暴露为有状态工具,使LLM代理能够将推理委托给符号求解器。评估表明,在前沿推理LLM中,该工具在演绎推理任务上具有竞争力或更高的准确性。
@tli104: 新论文:"Self-Compacting Language Model Agents" 语言模型代理会构建冗长的推理和工具调用轨迹。随着轨…
新论文提出自压缩语言模型代理,该类代理可自行决定何时清理其推理和工具调用轨迹,以避免积累错误和过时信息。
ReaComp:将LLM推理编译为符号求解器以实现高效程序合成
ReaComp将LLM推理轨迹编译为可重用的符号程序合成器,在程序合成基准测试中实现了强大的准确性,同时消除了测试时的LLM调用,显著降低了计算成本。