人工智能与人类评判的批判性思维反论证

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本研究探讨在教育情境下，学生针对AI生成内容撰写反论证以培养批判性思维，并发现前沿大语言模型能够以与人类评估者中等一致性的方式评估此类写作。

arXiv:2605.05353v1 公告类型: 新摘要: 本干预研究探讨学生在生成式人工智能（GenAI）背景下，通过写作反论证来培养批判性思维。尤其是在使用GenAI存在作弊和认知卸载风险的情况下。我们向某大学课程的36名学生提供了4个精心挑选的论题（来自一系列热门辩论），要求他们就其中一个进行写作。我们使用六个既定评价标准（焦点、逻辑、内容、风格、正确性和参考文献），对所有合格样本（n=35份，经排除1份异常后）每篇写作进行三次人工评估（两次学生互评和一次经验教师评估），采用5点李克特量表。使用相同的评价标准和指导原则，我们还用六个前沿LLM作为评判者评估了这些写作。我们的混合方法设计包括每次评估的定性开放式反馈和定量方法。结果显示：（1）学生自行撰写的针对AI生成内容的反论证包含了逻辑等要素，而逻辑是批判性思维的关键组成部分；（2）GenAI可以基于明确的评价标准大规模成功评估学生的书面作品，且这些评估总体上与人工评估一致，除一个模型外，所有模型的Gwets AC2评分者间信度值均为0.33。

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:25

# 人类与AI评判下作为批判性思维的反驳论证

来源：https://arxiv.org/html/2605.05353
Tosin Adewumi\*, Marcus Liwicki, Foteini Simistira Liwicki, Lama Alkhaled, Hamam Mokayed, Esra Sümer\-Arpak  
机器学习组，EISLAB，吕勒奥理工大学，瑞典。[email protected]

###### 摘要

本干预研究探讨了在生成式人工智能（GenAI）背景下，学生写作中运用反驳论证对批判性思维的影响。这一点尤为重要，因为使用GenAI存在作弊和认知卸载的风险。我们向某大学课程的36名学生提供了4个精心挑选的论文陈述（来自一组热门辩论话题），要求他们就其中任一话题进行写作。我们采用六个既定评分标准（焦点、逻辑、内容、风格、准确性和引用），对全部合格样本（n=35份提交，其中1份因不合规被剔除）进行了三次人类评估（两次学生同伴互评和一次经验丰富的教师评估），采用5级李克特量表。使用相同的评分标准和指南，我们还选取了六种前沿LLM作为评估者来评估这些提交作品。我们的混合方法设计包括每项评估的定性开放式反馈和定量方法。结果表明：（1）学生对AI生成内容自行撰写的反驳论证包含逻辑等要素，而逻辑是批判性思维的关键组成部分；（2）基于清晰的评分标准，GenAI可以大规模成功评估学生的书面作业，这些评估与人类评估总体一致，除一个模型外，所有模型的Gwet's AC2评分者间信度值均为0.33。

###### 关键词：

反驳论证，基于论证的学习，批判性思维，人工智能

## 1引言

教育正在迅速发展，尤其是在其教学法(Zou et al.,2025)、学生的参与度和评估(Ennis and Weir,1985; Halpern,2006)以及学习的端到端规划(Romiszowski,2016)方面。这得益于生成式人工智能（GenAI），特别是大型语言模型（LLM），它带来了许多好处(Adewumi et al.,2025d; Mulaudzi and Hamilton,2025)。然而，近期研究表明，使用ChatGPT或类似工具撰写论文的人群，其与认知处理相关的大脑区域活动减少，或者报告称其技能受到负面影响(Kosmyna et al.,2025a; Helal et al.,2025)。这种将认知任务转移给GenAI的行为被称为认知卸载，可能导致认知萎缩，即个人能力下降(Kosmyna et al.,2025a; Gerlich,2025a)。鉴于GenAI很可能将持续存在，找到学生与之互动的方式，使其能够鼓励批判性思维，从而提升他们的技能和学习，是至关重要且有益的。

批判性思维是一个有目的的、反思性的元认知过程，它增加了形成关于某个论证的稳健且合乎逻辑的结论，或找到问题解决方案的可能性(Facione,1990; Ku,2009; Lai,2011; Dwyer et al.,2014)。它强调超越被动信息摄入，转向审视证据、识别假设、比较视角，并运用逻辑来确定立场的说服力(Kuhn,1991; Sinfield and Burns,2023)。同时，反驳论证是一个逻辑论证，它为现有观点提供不同的视角，从而构成辩论(Fulan et al.,2025)。虽然对于批判性思维的组成部分存在不同意见(Dwyer et al.,2014)，但逻辑被广泛视为基本要素(Adewumi et al.,2025a; Dwyer et al.,2014)。

许多研究者倾向于通过开放式形式（例如书面反驳论证）来评估批判性思维，因为这种形式旨在评估现有内容中的逻辑。一个开放式形式的例子是Ennis–Weir批判性思维论文测试（EWCTET）(Ennis and Weir,1985; Lai,2011)。然而，客观地评估学生写作中的批判性思维可能是一项具有挑战性的任务，原因有很多，包括对批判性思维细节的不同看法(Dwyer et al.,2014)。李克特量表提供了一种可能的解决方案，并已被其他研究者使用(Joshi et al.,2015; Alkharusi,2022; Gerlich,2025b)。

在这项工作中，我们的动机是回答两个研究问题：（1）对AI生成论证的反驳论证，在逻辑和相关评分标准方面，是否能促进学生的批判性写作思维？（2）在给定相同评分标准的情况下，GenAI系统在评判反驳论证方面与人类相比有多相似（或不相似）？尤其因为关于学生针对AI生成论证（涉及不同主题）自行撰写的反驳论证如何促进学生批判性思维这一课题，在文献中尚缺乏研究——基于论证的学习在教学法中似乎相较于传统的传输式教学方法未被充分利用(González et al.,2026)。我们采用了包含定性和定量方法的混合研究设计，样本量（n）为35份提交作品，并使用5级李克特量表进行评分。我们公开发布了数据工件。222github.com/LTU-Machine-Learning/counterargument_ai我们的主要贡献是：

1. 1.我们表明，学生对AI生成内容自行撰写的反驳论证包含逻辑等要素，这是批判性思维的关键组成部分。
2. 2.我们表明，基于清晰的评分标准，GenAI可以成功用于评估学生的书面作业（特别是反驳论证），并且其评估通常与人类评估（包括专家评审和学生同伴互评）一致。

本文其余部分组织如下。在第2节中，我们描述了文献中的理论框架。在第3节中，我们全面描述了本研究的方法，包括研究设计、参与者以及AI生成反驳论证的检查。在第4节中，我们使用多个图表展示了我们的发现。在第5节中，我们讨论了本研究的启示及其与理论的联系。最后，在第6节中，我们进行总结。

## 2理论框架

我们对批判性思维、反驳论证以及GenAI评估的一些理论基础文献进行了相对全面的回顾。

### 2.1批判性思维模型

Bloom等人（1956）的教育目标分类法是将思维应用于批判性思维的众多模型之一，因为它包含了对知识的分析(Dwyer et al.,2014)。该模型影响了许多其他模型，包括Anderson和Krathwohl（2001）修订的学习、教学和评估分类法，Duron等人（2006）的5步框架，以及Romiszowski（2016）使用系统方法的课程设计。

在Bloom等人（1956）模型的第一层是知识，这不仅涉及内容的具体细节和术语，还涉及处理这些细节的方法。第二层是理解，涉及解释和总结所学信息，第三层是应用。第四层是分析元素及其相互关系。第五层是综合，涉及产生计划或新的沟通方式，而第六层（最后一层）是评价。德尔菲小组（由46位批判性思维专家组成）一致认为，分析、评价和推理是批判性思维的核心技能(Facione,1990)，并且它们呈正相关(Dwyer et al.,2015)。这三项技能构成了Dwyer等人（2014）综合批判性思维框架的关键组成部分。

### 2.2反驳论证作为批判性思维的工具

除了在论证中的结构性作用外，反驳论证在基于论证的学习（如论证性写作和辩论）中充当批判性工具，通过承认、分析和驳斥对立观点来强化主要论点(González et al.,2026)。事实上，批判性思维的定义完全植根于逻辑论证（或反驳论证）的构建(Dwyer et al.,2014)。在教育环境中，接触对比观点已被证明能刺激概念转变并促进综合性理解，尤其是当学生需要对这些替代观点做出回应时。无论是“为学习而辩论”（即促进领域知识的学习）还是“学会辩论”（即发展批判性思维技能的教学工具）的概念都是如此(Chi and Wylie,2014; Nussbaum and Sinatra,2003; González et al.,2026)。

在GenAI的背景下，新兴研究表明，与LLM输出进行批判性互动，例如质疑、修改或挑战生成的文本，可以在学习者保持认知活跃时支持高阶思维(Kasneci et al.,2023)。学生不是直接接受AI生成的回答，而是通过构建反驳论证来评估所给推理的充分性、相关性和连贯性。因此，根据González等人（2026）的观点，使用反驳论证能带来显著的好处，无论是教学上的还是其他方面的，包括：

1. 1.它提供了与源材料进行实质性互动的证据。
2. 2.它表明学习已经发生。
3. 3.它培养了学生的社会情感技能，因为他们学会了培养相互尊重、合作和对话共情的态度。

出于这些原因，在AI介导的写作环境中，使用反驳论证为评估批判性思维提供了一个可衡量且具有理论基础的构念。

### 2.3思维常规

思维常规，即系统思考的方式或程序，已被证明能够发展批判性思维(Pinedo et al.,2018; Manurung et al.,2022)。存在许多思维常规，例如“观察-思考-质疑”、4C法和“观点圈”(Ritchhart et al.,2011)。比较它们需要区分人类推理背后的认知过程和用于评估它的程序机制。在论证性写作的背景下，它们指的是个人构建主张、评估证据、回应对立观点和证明结论的系统性实践。与基于论证的学习相关的思维常规示例（分为三部分）包括“解释游戏”（用于引入和探索想法）、“联系-拓展-挑战”（用于综合和组织想法）以及“你为何那样说？”（用于深入探讨想法）(Ritchhart et al.,2011)。Ritchhart等人（2011）提倡灵活运用这些常规，因为某些示例可能跨越多个类别。在GenAI时代，思维常规在人类和人工代理中可能以不同方式实例化。当学生通过认知和元认知过程参与论证性写作时，LLM则通过在大规模语料库上训练的基于概率的模式识别来生成结构化论证。

### 2.4评估与评分标准

Ku（2009）认为，仅仅使用多项选择格式不足以揭示学生答案背后的推理能力或在未提示情况下进行批判性思维的能力，因此倡导允许同时采用多项选择和开放式形式的评估。存在不同的批判性思维评估工具，例如使用日常情景的哈尔彭批判性思维评估（HCTAES）(Halpern,2006)和沃森-格拉泽批判性思维评估（WGCTA）(Watson,1980)，但它们在格式和背景上有所不同(Ku,2009)。

评分标准作为评估任务特定组成部分的评分指南(Yavuz et al.,2025; Ling,2025)，在将抽象构念（如批判性思维）操作化为可观察、可评分的标准方面起着核心作用。通过定义表现维度和量表描述符，评分标准旨在提高可靠性、透明度以及学习目标与评估实践之间的一致性(Brookhart,2013; Jonsson and Svingby,2007)。然而，评分标准的有效性不仅取决于所选维度，还取决于表现水平如何清晰地映射到这些维度上。不一致会引发对构念效度和可解释性的担忧，尤其是在量表统一应用于异质性评分标准时。当比较人类和基于AI的评估时，这些挑战尤为相关。因此，当目标是评估反驳论证和批判性思维而非一般写作能力时，仔细设计评分标准变得至关重要。

### 2.5AI评估

最近，使用LLM作为评估者已成为一种有前景的方法，用于实现可扩展且具有成本效益的评估。前沿模型不仅作为文本生成器，而且在给定明确标准和评分准则时，已被证明能够在结构化评估任务中近似人类判断(Kocmálek et al.,2025)。

相似文章

对学生使用AI的思考

Reddit r/AI_Agents

关于学生在教育环境中使用人工智能的讨论或观点文章

人们总在问一篇文章是不是AI写的。我认为他们问错了问题。

Reddit r/artificial

一篇评论文章，主张关注点应放在内容是否包含原创思考，而非是否使用了AI；强调工具不能替代人的判断。

我开始让AI先反驳我，然后再寻求帮助，这改变了一切

Reddit r/artificial

作者分享了一种技巧：先让AI模型反驳某个想法，以获得更平衡的回复，从而提升批判性思维，减少提问框架带来的偏见。

AI编写的评论帮助人类发现缺陷

OpenAI Blog

# AI编写的评论帮助人类发现缺陷来源：[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo

用AI思考与依赖AI的区别

Reddit r/ArtificialInteligence

本文探讨了将AI作为增强思维的工具与过度依赖AI之间的区别，强调了保持人类批判性思维和判断力的重要性。