理解人工智能与学习成果

OpenAI Blog 新闻

摘要

OpenAI开发了学习成果测量套件,这是一个与塔尔图大学和斯坦福大学SCALE倡议合作创建的框架,通过纵向研究测量人工智能如何随时间影响学生学习。该套件解决了当前研究方法仅狭隘关注考试成绩的不足,并将作为公共资源向全球学校和大学发布。

OpenAI推出了学习成果测量套件,用于评估人工智能在不同教育环境中随时间对学生学习的影响。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:50

# 理解人工智能与学习成果的新工具 来源:https://openai.com/index/understanding-ai-and-learning-outcomes/ 教育是人工智能最具前景的前沿领域之一。借助 ChatGPT 等工具,任何学生、在任何地点、任何时间,都能获得个性化的学习支持。 但教育领域对人工智能如何影响学习成果仍处于早期探索阶段。去年,我们的团队开始研究类似[学习模式](https://openai.com/index/chatgpt-study-mode/)这类工具的效果,并在学生表现方面看到了令人振奋的提升。然而,我们的研究也引出了一个重要问题:我们如何评估人工智能对学习者长期进步的影响,而不仅仅是在一次期末考试中? 这是一个更广泛生态系统的挑战。迄今为止,大多数研究方法都聚焦于狭窄的表现信号(如考试成绩),缺乏评估学生在真实环境中如何实际使用人工智能学习,以及这种使用如何随时间塑造学习成果的能力。 为了弥补这一空白,我们开发了 **学习成果测量套件 (Learning Outcomes Measurement Suite)**,这是一个与爱沙尼亚塔尔图大学及斯坦福学习加速器 SCALE 计划共同创建的框架,旨在支持不同教育背景下学习成果的纵向测量。 目前正在通过随机对照试验进行广泛验证,此外,还将与 **学习实验室 (Learning Lab)** 的创始组织(包括亚利桑那州立大学、伦敦大学学院知识实验室和麻省理工学院媒体实验室的研究人员,基于[之前的合作研究](https://openai.com/index/affective-use-study/))开展进一步研究。 今天,我们将介绍测量套件的工作原理及其重要性。随着时间的推移,我们计划发布更多研究成果,并将该测量套件作为公共资源,提供给全球的学校、大学和教育系统。 > “这项研究让我们能够快速学习,同时为更深入地理解人工智能如何以有意义的方式融入学校奠定基础。我们希望了解这些工具如何支持严谨的学术学习,同时培养高阶思维、创造力、好奇心以及学生对自己作为学习者的信心。” > > ——Susanna Loeb,斯坦福大学教育学教授兼 SCALE 计划教职主任 - 当前关于人工智能对学习影响的研究方法显示了有希望的表现信号,但未能全面捕捉人工智能如何随时间影响学习成果。 - 学习成果测量套件将首次提供一个标准框架,用于纵向研究,帮助教育工作者、研究人员和机构理解人工智能如何在不同背景下塑造学习和成果。 - OpenAI 的学习实验室是一个专注于推进这项工作的新研究生态系统。随着领域发展,OpenAI 将与众多合作伙伴一起发布研究成果。 当学生使用人工智能工具学习和研究时,可能意味着许多不同的事情——从向人工智能寻求快速答案,到用它来逐步解决问题,获得类似导师的指导。为了鼓励用户以支持更深入理解和技能构建的方式使用 ChatGPT,OpenAI 去年推出了[学习模式](https://openai.com/index/chatgpt-study-mode/)。在底层,学习模式由我们与教师、科学家和教学法专家合作编写的自定义系统指令驱动,这些指令反映了一套支持真正学习(而非仅仅答案)的核心行为——使用脚手架、检查理解、引导练习。 为了测试这种符合教学法的 AI 交互风格是否能转化为更好的学习成果,我们进行了一项随机研究,涉及 300 多名准备神经科学和微观经济学考试的大学生。虽然分析仍在进行中,但初步结果让我们有信心认为,通过像学习模式这样的功能所鼓励的、符合教学法的 AI 交互风格,可以改善学习成果。但这项研究也揭示了一个重要现实:真正重要的是这些成果及相关富有成效的行为能否持久保持。 **研究设计** 参与者被分配到三组之一:对照组使用传统在线资源(如 Google 搜索和 YouTube,且禁用 AI 生成的概述功能)学习;另外两组则分别获得两种略有不同的学习模式变体,旨在以不同方式引导学生完成学习过程。事先收集了基线测验和入门调查,以调整先前课程接触、学习习惯、学术信心以及 AI 工具熟悉程度方面的差异。学生在每次考试前完成定时学习模式会话,两种学习模式变体在科目间进行了平衡。 这种设置旨在反映真实的学习条件,而非严格控制的实验室环境。参与与考试成绩无关,并非所有学生在名义上的 40 分钟会话中都同等程度地使用了学习模式。这使我们能够测量并报告意图治疗 (ITT) 效应,即在实际推广条件下提供工具访问权限的影响——换句话说,是被提供学习模式的因果影响,同时承认实践中参与度可能有所不同。 **研究发现** 我们分别测量了每门考试的表現。在我们的随机研究中,各科目的改善并不一致,参与者对学习模式的参与程度也各不相同。 - **神经科学(主要 ITT)**:我们观察到学习模式相对于对照组的方向性正向差异,但结果与使用传统在线资源学习的学生没有显著区别。一些引导和技术问题影响了使用学习模式的学生的学习时间。 - **微观经济学(主要 ITT)**:我们观察到,被分配使用学习模式的学生相对于无 AI 对照组,在考试成绩方面有显著提升——相对分数高出约 15%。 当我们将每种学习模式变体分别与对照组比较时,效果保持一致。 虽然这反映了现实世界中的变化,但也突显了通常测量学习成果方式的更深层局限性。 大多数现有的评估方法依赖于在较短时间内评估的固定干预措施,使用考试成绩或最终论文等成果作为主要信号。这些方法无法捕捉人工智能在实践中影响学习的核心机制:随着学习者自身的策略、偏好和学习习惯而不断演变的、持续的个性化互动。它们也无法揭示一个能力的改进(如短期记忆)是否可能伴随着其他能力(如坚持性、自主动机或创造性解决问题)的权衡。因此,它们忽略了最终决定人工智能是否真正改善学习的纵向认知效应。 由于不同国家的学习环境、课程体系和机构目标差异很大,一次性的研究结果很难推广到其他系统。因此,测量方法必须足够灵活,以便不同的教育系统能够定义成功在其语境中的含义,根据自身标准评估人工智能,并据此进行迭代。 **构建更好的测量系统** 基于 OpenAI 学习模式研究的经验,我们一直在构建一个结构化的测量系统,以大规模衡量人工智能对学习者的影响,并创建一个根据这些成果改进模型的机制。它基于三个信号——模型的行为方式、学习者的反应方式以及随时间推移产生的可测量认知结果。它包括: - **系统指令以优化模型行为**:使用自然语言改变模型的默认行为,使其更好地符合特定教学方法。 - **学习交互分类器**:自动检测真实、去标识化的学习者-模型交互中的“学习时刻”,并标记显著特征,如参与度和错误纠正。 - **学习质量评分器**:根据学习者是否实现了目标以及交互遵循强教学原则的程度(包括识别失败模式),评估和评分每个学习时刻。 - **纵向学习评分器**:追踪同一学习者与模型交互随时间的变化——包括参与度、坚持性和元认知策略——在个体和群体层面。 - **标准化认知与元认知测量**:通过 ChatGPT 在访问前/中/后提供的经过验证的第三方工具,用于建立基线并衡量基础能力(如批判性思维、创造力和记忆)的变化。 当这些组件结合时,我们称之为**学习成果测量套件**。 它产生了教育生态系统可以使用的关键信号:学习时刻的结构化视图、显示成果如何在群体间随时间变化的仪表盘、模型在教学和辅导评价准则方面的表现指标,以及与标准化评估和简短学习者问卷一致的结果度量。在可用的情况下,它可以整合合作伙伴提供的真实数据,如考试成绩、课堂观察或出勤率。 它还使我们的合作伙伴能够理解使用人工智能学习随时间推移产生的更深层认知影响,因为我们通过这个系统也能追踪对以下能力的影响: - **自主动机**:学习者自主塑造学习 vs. 被模型引导的程度。 - **积极投入**:教学交互的频率、多样性和质量。 - **任务坚持性**:学习者在认知挑战中坚持并克服的程度。 - **元认知**:学习者计划、反思和监控自己学习方法的努力频率和质量。 - **记忆**:学习者准确回忆之前交互内容的能力。 这反映了我们的整体努力:不仅是关注狭窄的学习成果定义(考试成绩上升),而是关注支撑学习的整体能力。这也反映了我们的信念:在优化目标上没有灵丹妙药——系统和教育工作者需要被赋能,以根据教学最佳实践和方法来指导权衡。 **我们接下来的方向** 我们正在通过大规模研究验证学习成果测量套件,然后广泛推出。这项工作正在与塔尔图大学和斯坦福 SCALE 计划合作进行,涉及爱沙尼亚等国家级合作伙伴,测量套件将在几个月内对近 20,000 名 16-18 岁的学生进行研究。学生使用将密切配合当地负责人,以确保安全并符合当地课程。 > “爱沙尼亚一直将教育视为一个不断改进的系统,而非静态不变。随着人工智能成为其中的一部分,关键问题是如何衡量人工智能对学习的长期影响。这就是我们与 OpenAI 合作所探索的内容。学生们渴望参与开发过程,许多人想学习如何用人工智能支持学习。这感觉像是一个真正的转折点,我们很高兴能贡献方法,让其他教育系统能够重用并在此基础上发展。” > > ——Jaan Aru,塔尔图大学计算机科学研究所副教授 这项工作建立在更广泛的合作研究基础之上。除了通过学习实验室创始合作伙伴进行的研究外,OpenAI 还支持学习与就业交叉领域的研究——考察人工智能如何塑造学生的学业路径、职业决策,以及机构如何支持负责任地采用人工智能。这项研究正在博科尼大学、Innova Schools 和达特茅斯学院塔克商学院、圣地亚哥州立大学、石溪大学等机构进行。 随着我们开展更长期的研究,探索学生如何最好地使用人工智能学习,我们计划分享研究成果,并与更广泛的教育生态系统合作,确保人工智能惠及世界各地学习者。 有兴趣接收此项工作最新动态的人可以在此[注册](https://openai.com/form/learning-lab)。

相似文章

OpenAI 的技术目标

OpenAI Blog

OpenAI 概述了其技术目标,重点是构建安全的 AI 并实现利益分布,提出了一个基于 agent 在游戏、机器人技术和语言任务等多样化环境中的表现的统一智能指标。该组织详细介绍了基础研究方向和项目制团队,旨在开发通用学习算法以提高 agent 的能力。

推出 OpenAI Academy

OpenAI Blog

OpenAI 推出了 OpenAI Academy,通过教育、资源和社区建设举措为全球 AI 开发者和组织提供支持。该计划建立在 OpenAI 现有的支持工作基础之上,包括对影响力项目的资助以及将 MMLU 基准翻译成 14 种语言的工作。

扩展 OpenAI Academy

OpenAI Blog

OpenAI 推出并正在扩展 OpenAI Academy,这是一个在线教育中心,汇集了与教育机构、劳动力组织和非营利组织合作开发的教育内容和现场 AI 素养讲习班,旨在让更广泛的社区能够获得 AI 教育。

SchoolAI 推出教师赋能型 AI 平台

OpenAI Blog

SchoolAI 推出了一个基于 OpenAI 模型的 AI 平台,通过实时学生进度信号赋能教师,并通过对话助手(Dot)和 AI 辅导员(Sidekick)提供个性化学习支持,两年内覆盖 80 多个国家的 100 万间教室。

我们的AI安全方法论

OpenAI Blog

OpenAI阐述了其全面的AI安全方法,强调严格测试、迭代部署、现实世界监控和监管合作,以确保强大的AI系统得到安全构建和使用。