Prober.ai:通过 LLM 约束角色为论证写作发展提供基于询问的反馈
摘要
本文介绍了 Prober.ai,这是一个基于 Web 的写作环境,它利用 LLM 约束的角色为论证写作提供基于询问的反馈,旨在防止认知外包。该系统作为黑客马拉松原型开发而成,通过将修改建议置于学生反思之后,以保留批判性思维能力。
查看缓存全文
缓存时间: 2026/05/08 08:29
# Prober.ai:通过 LLM 约束型角色实现基于探究的反馈,以促进论证性写作的发展 来源:https://arxiv.org/html/2605.05598 \(2026 年 3 月\) ###### 摘要 大型语言模型(LLMs)在教育环境中的普及,反而削弱了其声称要支持的认知过程。学生越来越多地将批判性思维外包给按需生成精美文本的 AI 助手,导致可测量的“认知债务”以及论证推理能力的下降。我们提出了 Prober.ai,这是一个基于 Web 的写作环境,它颠覆了传统的 AI 辅导范式:系统不生成或重写学生文本,而是通过特定角色的系统提示和结构化的 JSON 输出模式,约束 LLM(Gemini 3 Flash Preview)仅针对论证弱点生成有针对性的、基于探究的问题。该系统采用两阶段交互架构——“挑战(Challenge)”与“解锁(Unlock)”——实施了一种教学摩擦力机制,即修订建议被强制性的学生反思步骤所 gating(门控/锁定)。该系统的设计基于图尔敏论证理论、关于同伴前馈提问机制的研究以及关于写作教学中 AI 支持反馈的证据。功能原型是在 2026 年 3 月纽约教育技术黑客松(NY EdTech Hackathon)期间仅用 36 小时开发的,并获得了第二名。本文描述了系统架构、用于将 LLM 输出约束到符合教学目标的 JSON 模式的提示工程方法,并讨论了其在可扩展且保护认知的 AI 写作教育整合中的意义。 关键词:AI 辅助写作反馈,论证性写作,探究式学习,LLM 提示约束,认知支架,教育技术 ## 1 引言 大型语言模型(LLMs)迅速融入学生的写作工作流程,创造了一个教学上的悖论。诸如 ChatGPT、Gemini 和 QuillBot 等工具提供了即时、流畅的文本生成和修订能力,学生乐于采用。然而,新兴的神经科学和行为证据表明,这种便利伴随着巨大的认知成本。Kosmyna 等人(Kosmyna et al., 2025 (https://arxiv.org/html/2605.05598#bib.bib5))测量了学生在 LLM 辅助作文写作期间的 EEG alpha 波段活动,发现与搜索辅助和无辅助写作条件相比,定向传输功能(dDTF)连通性显著降低——这是主动认知参与的一个神经标志。这种现象被称为**认知外包**,描述了将高阶思维过程系统地卸载到 AI 系统上的行为。 后果不仅限于神经指标。在行为层面,依赖 AI 生成文本的学生产生的文章表面光鲜但结构浅薄:主张缺乏充分的依据,反方观点被视为敷衍的承认而非真正的辩证参与,连接证据与结论的推理链条经常缺失或循环论证(Bi 和 Yan, 2026 (https://arxiv.org/html/2605.05598#bib.bib2))。现有的写作支持工具加剧而非解决了这一问题。专注于语法的平台(Grammarly, QuillBot)在表层运作——纠正语法、用词和语气——而不涉及文本的论证结构。通用 AI 代理(ChatGPT, Gemini)提供直接答案,系统性地保持顺从(“听起来很棒!你构建了一个非常强大、连贯的论点”),并且从不提供加强批判性思维所需的严格、具有挑战性的反馈。 本文介绍了 Prober.ai,这是一个旨在占据 AI 辅助写作领域根本不同位置的系统。其核心设计原则是:**AI 永远不应替学生写作**。相反,系统约束 LLM 仅作为结构化的提问者发挥作用——一个“魔鬼代言人”,它识别学生论证性文章中的逻辑弱点,并提出有针对性的、开放式问题,迫使学生辩护、澄清并加强自己的推理。具体的修订建议被故意**锁定**在强制性的反思步骤之后:学生必须首先阐述对自己论点的书面辩护,然后系统才会解锁具体、可操作的反馈。 这项工作的技术贡献有三方面: 1. **角色约束的 LLM 输出**。我们展示了一种方法,通过精心设计的系统提示和明确的输出模式规范,将通用 LLM(Gemini 3 Flash Preview)约束为仅生成符合教学目标的结构化 JSON 输出,消除了模型默认的评估或生成响应倾向。 2. **门控反馈架构**。我们引入了一种两阶段 API 设计(`/challenge` → `/unlock`),将教学摩擦力作为一等公民架构原语实施,确保认知努力先于修订支持的交付。 3. **多角色提问框架**。我们实现了两种互补的关键角色——“审稿人 #2”(专家级逻辑审查)和“困惑的读者”(新手视角的清晰度探究)——每种角色产生不同的问题分类法,映射到论证质量的具体维度。 ## 2 相关工作 ### 2.1 教育中的 AI 辅助反馈 Ba 等人(Ba et al., 2025 (https://arxiv.org/html/2605.05598#bib.bib1))对教育中的 AI 辅助反馈进行了系统性文献综述,发现大多数现有系统提供的是**指令性反馈**(明确的纠正和重写),而非**促进性反馈**(引导自我调节的问题和提示)。他们的荟萃分析显示,促进性反馈机制与长期的学习增益关联更强,特别是在以发展元认知意识为主要教学目标写作领域。Prober.ai 明确设计为促进性反馈系统,在其初始交互阶段仅生成问题,并将指令性建议锁定在学生反思之后。 ### 2.2 论证理论与写作评估 Prober.ai 采用的问题分类法基于图尔敏的论证模型(Kinnear 等人, 2022 (https://arxiv.org/html/2605.05598#bib.bib4)),该模型将论证分解为主张、数据(证据)、保证(推理链接)、支持、限定词和反驳。Kinnear 等人(Kinnear et al., 2022 (https://arxiv.org/html/2605.05598#bib.bib4))证明了该框架如何为教育环境中的评估有效性提供信息,为识别特定的论证弱点提供了原则性基础。我们的系统将图尔敏的类别操作化为不同的问题模块:**主张问题**针对中心论点的清晰度和精确度,**推理问题**探究连接证据与结论的保证,**反方观点问题**考察辩证参与的深度,**范围/影响问题**处理限定词和更广泛的利害关系。 ### 2.3 同伴反馈与基于问题的支架 Latifi 等人(Latifi et al., 2021 (https://arxiv.org/html/2605.05598#bib.bib6))调查了论证性写作中同伴反馈与同伴前馈之间的区别,发现基于问题的前馈——审查者提出问题而非做出评估性陈述——与传统反馈方法相比,显著提高了论证质量和学习过程的深度。他们的工作表明,问题激活的认知过程与陈述不同:问题要求作者生成而非仅仅评估,将认知努力的焦点从审查者转移到作者身上。Prober.ai 通过用人人角色约束的 LLM 取代人类同伴审查者,扩展了这一原则,实现了按需、可扩展的基于问题的前馈。 Noroozi 等人(Noroozi et al., 2016 (https://arxiv.org/html/2605.05598#bib.bib7))进一步确立,脚本化的在线同伴反馈过程——其中反馈交互通过预定义协议进行结构化——比非脚本化交互产生更高质量的论证性文章。Prober.ai 中采用的结构化 JSON 输出模式起到类似的作用:它们根据教学原则协议脚本化 LLM 的反馈行为,确保一致性与论证质量维度的对齐。 ### 2.4 认知外包与 AI 依赖 Kosmyna 等人(Kosmyna et al., 2025 (https://arxiv.org/html/2605.05598#bib.bib5))提供了 LLM 辅助写作期间认知债务累积的首个神经影像证据。他们的 EEG 研究表明,与搜索引擎辅助和仅用大脑条件相比,使用 ChatGPT 进行作文写作产生的 alpha 波段 dDTF 连通性显著较低——表明主动认知处理减少。至关重要的是,即使指示参与者将 AI 用作“思维伙伴”而非代笔,这种效应依然存在,这表明生成文本的 mere availability(单纯可用性)抑制了独立推理。Gao 等人(Gao et al., 2024 (https://arxiv.org/html/2605.05598#bib.bib3))将这一分析扩展到同伴反馈背景,发现学生在论证性作文写作中对在线同伴反馈的吸收,受处理和整合反馈所需的认知努力所中介。这些发现共同促成了 Prober.ai 的核心设计决策:通过拒绝生成或重写文本,系统消除了导致认知外包的认知捷径。 ### 2.5 与现有系统的区别 表 1 (https://arxiv.org/html/2605.05598#S2.T1) 总结了 Prober.ai 与现有方法的不同之处。与在论证结构之下运作的专注于语法的工具(Grammarly, QuillBot)不同,也与生成直接答案并系统性避免严厉反馈的通用 AI 代理(ChatGPT, Gemini)不同,Prober.ai 针对论证的逻辑结构,并故意在学生展示反思性参与之前 withhold(保留)解决方案。 表 1:Prober.ai 与现有写作支持范式的比较。 ## 3 系统架构与方法论 ### 3.1 设计原则 Prober.ai 围绕从第 2 节 (https://arxiv.org/html/2605.05598#S2) 讨论的理论基础中衍生的四个核心设计原则进行架构: 1. **认知努力保留**。系统永远不应减少论证所需的认知负荷。每次交互都应增加或维持学生主动推理的参与度。 2. **基于问题的交互**。主要输出模式是探究,而非评估或生成。系统提问;它不告知。 3. **必要的认知支架**。虽然拒绝替学生思考,但系统必须提供足够的结构,使认知挑战富有成效而非压倒性。 4. **双视角反馈**。不同的论证弱点需要不同的批判视角。系统提供至少两个互补的角色,以解决逻辑严谨性和沟通清晰度问题。 ### 3.2 高层架构 系统遵循客户端 - 服务器架构,写作环境(前端)与 AI 推理管道(后端)之间有明显分离。图 1 (https://arxiv.org/html/2605.05598#S3.F1) 说明了整体系统结构。 学生论文 | v [论证解析层] [特征检测] - 识别主张 - 过度概括 - 检测证据 - 证据-推理差距 - 定位反方观点 - 弱势反方观点 - 提取因果语言 - 概念模糊 | - 因果跳跃 v - 规范性断言 [认识状态分类器] | - 断言-heavy v - 推理-light [触发优先级排序] - 辩证浅薄 - 限制过载 - 概念模糊 - 排名前 2-3 个问题 - 机制不完整 | | v +--------> [问题模块选择器] --------> 基于探究的 - 保证模块 - 反方观点模块(非评估性 - 范围模块 输出) - 共同构建模块 - 澄清模块 图 1:Prober.ai 的概念处理管道。LLM 执行论证解析、特征检测、认识状态分类、触发优先级排序和问题模块选择作为内部推理步骤。只有最终的基于探究的问题呈现给学生。 ### 3.3 挑战 - 辩护 - 改进循环 用户交互遵循循环的四阶段模型(图 2 (https://arxiv.org/html/2605.05598#S3.F2)): 1. **写作**。学生在基于 Quill 的富文本编辑器中撰写或粘贴论证性论文。 2. **挑战**。学生选择一个关键角色并提交论文。系统返回针对特定论证维度的结构化、基于探究的问题。在此阶段不提供评估性语言或修订建议。 3. **辩护**。对于每个问题,学生必须撰写反思性辩护,阐述他们将如何解决已识别的弱点。这一强制性反思步骤构成了系统的主要教学摩擦力机制。 4. **改进**。提交辩护后,学生“解锁”具体的修订建议和写作技巧。学生随后将这些内容纳入草稿,并可以使用修订后的文本重新进入循环。 写作(用户输入) | v 挑战(基于探究的问题) | v 辩护(学生撰写反思) | v 改进(认知支架 -> 用户修订) | +----------> 回到写作 图 2:写作 - 挑战 - 辩护 - 改进循环。该循环设计使得认知努力始终先于建议的交付,确保学生始终是修订的主要代理人。 ### 3.4 角色系统 实施了两种互补的角色,每种角色解决论证质量的不同维度: #### 3.4.1 审稿人 #2:逻辑刺客 此角色模拟具有深厚领域知识的专家级学术同行评审员。其系统提示约束 LLM 以: - •忽略散文、语法和流畅度;严格关注论证的结构完整性。 - •识别逻辑“黑洞”和理论缺陷。 - •采用冷静、临床、智力要求高的语气。 - •生成恰好四个映射到图尔敏论证维度的问题: 1. **claim_question**:探究中心论点或关键子主张的清晰度和精确度。 2. **reasoning_question**:检查连接证据与结论的保证。 3. **counterargument_question**:邀请更深入地参与对立观点。 4. **scope_or_implication_question**:提出范围、边界条件或更大影响的问题。 #### 3.4.2 困惑的读者:沮丧的新手 此角色模拟经历“知识诅咒”的智能局外人——即作者假设读者知道的内容与读者实际理解内容之间的差距。其约束包括: - •识别认知负荷变得过重的地方:行话、未定义的概念或解释性跳跃。 - •确切指出读者感到“迷失”的地方。 - •生成恰好两个问题: 1. **clarification_question**:直接要求作者澄清一个令人困惑的术语、逻辑跳跃或缺失的定义。 2. **co_construction_question**:邀请作者共同头脑风暴替代可能性或解释。 双重角色设计确保学生既收到关于**逻辑严谨性**(审稿人 #2)也收到关于**沟通清晰度**(困惑的读者)的反馈
相似文章
人工智能与人类评判的批判性思维反论证
本研究探讨在教育情境下,学生针对AI生成内容撰写反论证以培养批判性思维,并发现前沿大语言模型能够以与人类评估者中等一致性的方式评估此类写作。
超越静态基准:基于角色模拟合成有害内容以实现鲁棒性评估
# 超越静态基准:基于角色模拟合成有害内容以实现鲁棒性评估 Source: [https://arxiv.org/html/2604.17020](https://arxiv.org/html/2604.17020) Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C\. Park Korea Advanced Institute of Science and Technology \(KAIST\) \{huijelee,jisu\.shin,hysong,pencaty,jongpark\}@kaist\.ac\.kr ###### Abstract 面向有害内容检测的静态基准在可扩展性与多样性方面存在局限,且可能受...
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
从意图到文本:AI支持的学术写作目标设定
本文介绍了WriteFlow,一个基于语音的AI写作助手,旨在通过目标导向的交互支持反思性学术写作,通过支架化元认知调节和目标表述来解决效率导向写作工具的局限性。对12位专家用户进行的向导式虚拟研究表明,该系统能有效支持起草过程中的迭代目标细化和目标-文本对齐。
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。