MOSAIC:通过层次语义对齐编排协作知识追踪

arXiv cs.LG 论文

摘要

MOSAIC是一种新颖的框架,利用冻结的大语言模型生成语义嵌入和层次化预测提示用于知识追踪,在多个基准上取得了最先进的结果。

arXiv:2606.29049v1 Announce Type: new 摘要: 知识追踪(Knowledge Tracing, KT)对于个性化教育至关重要,但传统方法存在两个关键局限:依赖忽略语义深度的浅层基于ID的表示,以及局限于单粒度掌握估计而忽略层次知识依赖。为应对这些挑战,我们提出MOSAIC(多粒度在线语义人工智能协作知识框架),这是一种新颖的框架,将LLM驱动的语义对齐与序列建模相结合。与仅将LLM用作预测器的方法不同,MOSAIC利用冻结的LLM生成动态、上下文感知的嵌入和层次化预测提示,明确捕捉协作信号和同伴交互。此外,我们引入了一个跨粒度一致性目标,联合规范概念、主题簇和全局熟练度级别的掌握估计。在ASSISTments、EdNet和新收集的大规模MOOC数据集上的大量实验表明,MOSAIC取得了新的最先进结果。具体而言,我们的方法在所有基准上的AUC提升高达3.4%,准确率提升高达2.5%。值得注意的是,MOSAIC在协作密集环境和长序列场景中展现出卓越的鲁棒性(在MOOC上AUC为0.862),同时提供了高预测精度和基于语义的可解释性。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:31

# MOSAIC:使用层次化语义对齐来编排协作知识追踪
来源:https://arxiv.org/html/2606.29049
11institutetext:哥伦比亚大学,纽约,美国
11email:li\.xinjin@columbia\.edu22institutetext:加州大学伯克利分校,伯克利,美国
22email:cwang998@berkeley\.edu33institutetext:信息系统与管理学院,卡内基梅隆大学,匹兹堡,宾夕法尼亚州,美国
33email:yuzhenl@alumni\.cmu\.edu44institutetext:数学系,南加州大学,洛杉矶,美国
44email:pengbinf@alumni\.usc\.edu55institutetext:马萨诸塞大学阿默斯特分校,阿默斯特,美国
55email:ziqisha@umass\.edu66institutetext:计算机科学系,加州大学圣地亚哥分校,拉荷亚,美国
66email:yeyang\-zhou@ucsd\.edu77institutetext:卡内基梅隆战略与技术研究所,卡内基梅隆大学,匹兹堡,美国
77email:yuma13926@gmail\.comMengyue Wang†\\daggerYuzhen LinPengbin FengZiqi ShaYeyang ZhouYu Ma\*

###### 摘要

知识追踪(KT)对于个性化教育至关重要,但传统上存在两个关键局限:依赖浅层的基于ID的表示而忽略语义深度,以及局限于单粒度的掌握程度估计而忽视层次化的知识依赖关系。为解决这些挑战,我们提出MOSAIC(面向协作知识的多粒度在线语义AI),这是一个新颖的框架,它编排了LLM驱动的语义对齐与序列建模。与将LLM仅用作预测器的方法不同,MOSAIC利用冻结的LLM生成动态、上下文感知的嵌入和层次化预测提示,显式捕获协作信号和同伴交互。此外,我们引入了一个跨粒度一致性目标,共同规范概念、主题簇和全局熟练度层面的掌握程度估计。在ASSISTments、EdNet以及一个新收集的大规模MOOC数据集上的大量实验表明,MOSAIC取得了新的最佳结果。具体而言,我们的方法在所有基准测试中实现了高达3.4%的AUC提升和高达2.5%的准确率提升。值得注意的是,MOSAIC在协作丰富的环境和长序列场景(MOOC数据集上AUC 0.862)中表现出卓越的鲁棒性,既提供了高预测精度,又提供了基于语义的可解释性。

††footnotetext:\*通讯作者。††footnotetext:†\\dagger同等贡献。## 1 引言

知识追踪(KT)是人工智能在教育中的一个基本问题,旨在从序列交互数据中建模学习者的潜在知识状态随时间如何演变,并预测未来表现以实现个性化干预、辅导和课程自适应[10 (https://arxiv.org/html/2606.29049#bib.bib4),55 (https://arxiv.org/html/2606.29049#bib.bib1),60 (https://arxiv.org/html/2606.29049#bib.bib3)]。经典和神经KT方法在基准数据集上已建立强性能,并成为智能辅导系统的核心组件。然而,现代教育平台面临的学习环境不再局限于简单的问题-回答日志。在实际场景中,学生的学习通过异构且语义丰富的信号展开,包括尝试、提示、任务时间、教师反馈和同伴讨论。这一转变给KT带来了更广泛的挑战:除了预测下一个回答,一个实用的学习者模型应该能够在丰富上下文中追踪知识演变,并在不同抽象层次上提供一致的掌握程度估计。

尽管取得了显著进展,现有KT方法仍面临两个持续存在的局限性。首先,许多模型严重依赖浅层的基于ID的表示来表示问题、概念和交互。虽然对于大规模预测有效,但这种表示通常忽略了练习的语义内容、知识组件的含义以及协作学习信号携带的上下文信息。因此,它们在语义表达力上仍然有限,并不适合文本和上下文证据起重要作用的真实教育场景。其次,大多数KT模型主要操作在单一粒度上,通常是技能或概念层面。这种设计忽视了学习内在的层次化特性,其中细粒度的概念掌握与更广泛的主题理解和整体熟练度相关。因此,现有方法虽然能实现准确的局部预测,但缺乏在多个知识层面上对学习者状态的一致视图[1 (https://arxiv.org/html/2606.29049#bib.bib2),3 (https://arxiv.org/html/2606.29049#bib.bib13)]。

先前的工作仅部分解决了这些挑战。概率和心理学测量公式提供了可解释的状态转移机制,但它们依赖简化假设,限制了捕获复杂学习行为的能力[10 (https://arxiv.org/html/2606.29049#bib.bib4),49 (https://arxiv.org/html/2606.29049#bib.bib7)]。深度序列KT模型通过循环、记忆和注意力架构改善了时间建模,但许多仍依赖ID级嵌入,并专注于单一粒度的掌握程度估计[55 (https://arxiv.org/html/2606.29049#bib.bib1),79 (https://arxiv.org/html/2606.29049#bib.bib8),21 (https://arxiv.org/html/2606.29049#bib.bib10),38 (https://arxiv.org/html/2606.29049#bib.bib11)]。结构感知和基于图的方法进一步融入了概念关系,但它们通常依赖预定义或弱自适应结构,并不能自然适应语义丰富的协作上下文[46 (https://arxiv.org/html/2606.29049#bib.bib14),53 (https://arxiv.org/html/2606.29049#bib.bib12)]。同时,大型语言模型(LLM)提供了强大的语义理解,并在教育任务如反馈生成、辅导对话和解释支持中显示出巨大潜力[34 (https://arxiv.org/html/2606.29049#bib.bib21),2 (https://arxiv.org/html/2606.29049#bib.bib23)]。然而,直接将LLM用作端到端预测器对于KT并不理想,因为稳定的时间状态追踪和序列归纳偏置仍然必不可少。这些观察表明,关键机会不是用LLM取代KT,而是以原则性方式整合语义理解和时间学习者建模。

受此视角启发,我们提出**MOSAIC**(面向协作知识的多粒度在线语义AI),一个用于语义基础和层次一致的知识追踪的统一框架。核心思想很简单:我们保留一个序列KT主干用于建模时间知识演变,同时使用冻结的LLM作为语义对齐模块来编码异质学习上下文。具体来说,MOSAIC利用冻结的LLM将问题内容、学习行为和协作交互文本转化为上下文感知的语义表示,然后由序列模型用于学习者状态追踪。在共享的潜在状态之上,MOSAIC在三个互补层次上联合估计掌握程度——概念、主题簇和全局熟练度。为了鼓励跨这些层次的一致学习者建模,我们进一步引入了一个跨粒度一致性目标,用于规范细粒度和粗粒度掌握程度估计之间的一致性。通过这种方式,MOSAIC结合了传统KT的时间鲁棒性和LLM表示的语义丰富性,同时超越单级预测,走向结构化的多层次学习者建模。

我们在ASSISTments、EdNet和一个反映协作丰富学习环境的大规模大学MOOC数据集上评估MOSAIC。跨基准测试,MOSAIC持续优于强KT基线,在涉及长交互序列和丰富协作上下文的设置中尤其明显。这些结果表明,将语义对齐与层次归纳结构相结合是下一代KT系统的一个有前途的方向。我们的主要贡献总结如下:

- •我们指出现有KT方法的一个关键局限:尽管在时间预测上有效,但它们在真实协作环境中对于语义基础和层次一致的学习者建模仍然不足。
- •我们提出MOSAIC,一个统一框架,将基于冻结LLM的语义对齐与序列知识追踪相结合,以在概念、主题簇和全局层面建模学习者掌握程度。
- •我们引入一个跨粒度一致性目标,用于规范多层次学习者表示,并在多个基准测试的标准概念级预测中显示出强大的实证收益,尤其是在协作丰富和长视野学习场景中。

## 2 相关工作

### 2.1 LLM与表示学习的更广泛影响

大型语言模型(LLM)和表示学习的最新进展深刻影响了广泛的领域,为多模态和自适应智能建立了基础范式。在具身智能和自主系统中,研究人员通过场景感知、持续适应、元认知协调和安全技能执行显著增强了动态环境交互和多模态理解[39 (https://arxiv.org/html/2606.29049#bib.bib33),4 (https://arxiv.org/html/2606.29049#bib.bib34),52 (https://arxiv.org/html/2606.29049#bib.bib35),7 (https://arxiv.org/html/2606.29049#bib.bib36),27 (https://arxiv.org/html/2606.29049#bib.bib37),20 (https://arxiv.org/html/2606.29049#bib.bib38),85 (https://arxiv.org/html/2606.29049#bib.bib42),43 (https://arxiv.org/html/2606.29049#bib.bib46),41 (https://arxiv.org/html/2606.29049#bib.bib47),42 (https://arxiv.org/html/2606.29049#bib.bib48),13 (https://arxiv.org/html/2606.29049#bib.bib61),80 (https://arxiv.org/html/2606.29049#bib.bib62),33 (https://arxiv.org/html/2606.29049#bib.bib63),29 (https://arxiv.org/html/2606.29049#bib.bib65),72 (https://arxiv.org/html/2606.29049#bib.bib64),28 (https://arxiv.org/html/2606.29049#bib.bib66),24 (https://arxiv.org/html/2606.29049#bib.bib70),12 (https://arxiv.org/html/2606.29049#bib.bib77),61 (https://arxiv.org/html/2606.29049#bib.bib78),51 (https://arxiv.org/html/2606.29049#bib.bib88),50 (https://arxiv.org/html/2606.29049#bib.bib89),65 (https://arxiv.org/html/2606.29049#bib.bib83)],同时,在联邦、持续和个性化表示学习中的并行工作探索了异质适应、任务条件参数生成和基于图的演化为用户特定智能[77 (https://arxiv.org/html/2606.29049#bib.bib39),48 (https://arxiv.org/html/2606.29049#bib.bib41),69 (https://arxiv.org/html/2606.29049#bib.bib43),68 (https://arxiv.org/html/2606.29049#bib.bib44),30 (https://arxiv.org/html/2606.29049#bib.bib45),73 (https://arxiv.org/html/2606.29049#bib.bib58),5 (https://arxiv.org/html/2606.29049#bib.bib59),18 (https://arxiv.org/html/2606.29049#bib.bib91),16 (https://arxiv.org/html/2606.29049#bib.bib92),17 (https://arxiv.org/html/2606.29049#bib.bib90)]。与此同时,现有努力通过减轻幻觉和建立严格的防御、反事实推理、反思和解释框架加速了可信AI、模型鲁棒性和可解释性的发展[70 (https://arxiv.org/html/2606.29049#bib.bib49),26 (https://arxiv.org/html/2606.29049#bib.bib50),71 (https://arxiv.org/html/2606.29049#bib.bib51),57 (https://arxiv.org/html/2606.29049#bib.bib55),59 (https://arxiv.org/html/2606.29049#bib.bib56),58 (https://arxiv.org/html/2606.29049#bib.bib57),74 (https://arxiv.org/html/2606.29049#bib.bib67),76 (https://arxiv.org/html/2606.29049#bib.bib68),75 (https://arxiv.org/html/2606.29049#bib.bib69),44 (https://arxiv.org/html/2606.29049#bib.bib85),23 (https://arxiv.org/html/2606.29049#bib.bib93)],同时扩展到生命科学领域进行多模态基因组分析和表型识别[63 (https://arxiv.org/html/2606.29049#bib.bib52),82 (https://arxiv.org/html/2606.29049#bib.bib53),22 (https://arxiv.org/html/2606.29049#bib.bib54)]。此外,高效的推理管道和工具增强生态系统通过推理剪枝、结构化监督和可靠证据校准优化可扩展性[47 (https://arxiv.org/html/2606.29049#bib.bib40),32 (https://arxiv.org/html/2606.29049#bib.bib79),31 (https://arxiv.org/html/2606.29049#bib.bib80),78 (https://arxiv.org/html/2606.29049#bib.bib81),6 (https://arxiv.org/html/2606.29049#bib.bib82),56 (https://arxiv.org/html/2606.29049#bib.bib84)],并由生成范式和多模态融合补充,在推荐系统中推进图建模、个性化和丰富语义理解[84 (https://arxiv.org/html/2606.29049#bib.bib60),64 (https://arxiv.org/html/2606.29049#bib.bib86),66 (https://arxiv.org/html/2606.29049#bib.bib87)]以及计算机视觉任务[25 (https://arxiv.org/html/2606.29049#bib.bib71),17 (https://arxiv.org/html/2606.29049#bib.bib90),28 (https://arxiv.org/html/2606.29049#bib.bib66)]。最后,这些基础模型在金融和决策智能中展示了显著的社会经济影响,推动金融问答、情感预测、破产预测和可解释市场分析的创新,超越了传统基准[11 (https://arxiv.org/html/2606.29049#bib.bib72),9 (https://arxiv.org/html/2606.29049#bib.bib73),36 (https://arxiv.org/html/2606.29049#bib.bib74),8 (https://arxiv.org/html/2606.29049#bib.bib75),83 (https://arxiv.org/html/2606.29049#bib.bib76),23 (https://arxiv.org/html/2606.29049#bib.bib93),81 (https://arxiv.org/html/2606.29049#bib.bib94)]。

### 2.2 序列知识追踪的演变

知识追踪已从经典的概率学生模型演变为高度表达力的深度序列架构。早期方法,如贝叶斯知识追踪[10 (https://arxiv.org/html/2606.29049#bib.bib4)],提供了可解释的状态转移,但依赖过于简化的学习动态假设,尽管相关的贝叶斯自适应控制思想也在序列决策设置中有所探索[14 (https://arxiv.org/html/2606.29049#bib.bib31)]。深度知识追踪[55 (https://arxiv.org/html/2606.29049#bib.bib1)]的引入证明循环网络能有效将原始交互序列映射到未来表现。随后的架构通过记忆和注意力机制大幅完善了这种时间建模,突出包括动态键值记忆网络[79 (https://arxiv.org/html/2606.29049#bib.bib8)]、AKT[21 (https://arxiv.org/html/2606.29049#bib.bib10)]和MonaCoBERT[38 (https://arxiv.org/html/2606.29049#bib.bib11)]。最近的迭代通过融入问题难度[45 (https://arxiv.org/html/2606.29049#bib.bib15)]或层次化会话结构[35 (https://arxiv.org/html/2606.29049#bib.bib17)]进一步约束这些序列,相关工作也在多智能体强化学习设置中探索自适应上下文长度优化[15 (https://arxiv.org/html/2606.29049#bib.bib32)]。然而,尽管取得了强预测准确性,这些序列基线仍然受限于它们对浅层、基于ID的表示和短行为特征的依赖。因为它们从根本上优化单粒度、下一响应预测,所以缺乏建模协作丰富环境或补足所需语义深度。

相似文章

MOSAIC:结构化代理智能与组合的模块化编排框架

arXiv cs.AI

MOSAIC 提出了一种用于自动化数据科学的结构化代理框架,该框架基于记忆驱动的模型选择和工作流构建,并在金融时间序列任务上得到验证。其性能优于 AutoML 及其他基于代理的基准方法。