不同LLM访问级别对论文写作行为的影响

arXiv cs.CL 2026/06/02 04:00 论文

llm education writing academic-ai authorship user-study ai-assistance

摘要

一项针对24名大学生的初步研究探讨了不同LLM访问级别（无访问、有限访问、无限制访问）对论文写作质量、行为以及感知作者身份的影响，发现限制访问可以保持作者身份的自信，而无限制访问则降低了创造性表达和所有权感。

arXiv:2606.00250v1 公告类型：新摘要：探究大型语言模型（LLMs）在大学教学中影响程度有助于制定策略，以支持而非破坏学生的学习成果。本研究考察了不同LLM辅助水平对写作表现、参与度和感知作者身份的影响。我们报告了一项初步研究，其中24名大学生被随机分配撰写一篇短文，条件包括无LLM访问、有限访问（≤3次提示，每次回复限制在100词以内）或无限制访问。各组的整体论文质量在统计上无显著差异。然而，写作行为和感知作者身份出现显著分化：有限访问组的学生报告了更高的所有权感（62.5%会将论文作为独立作品提交，而无限制组为25%）、更强的组织性提升以及更具策略性、以修改为中心的提示。无限制组花费更多时间写作，产出的论文与LLM输出更相似，并报告创造性表达减少。我们的研究结果表明，限制而非禁止LLM访问，可能有助于在保留AI辅助的脚手架式好处的同时，保持作者身份的自信。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:36

# 不同大语言模型访问权限对论文写作行为的影响  
来源：https://arxiv.org/html/2606.00250  
Julia Christenson, Karin de Langis, Shirley Anugrah Hayati, Dongyeop Kang  
明尼苏达大学  
\{chri5306, dento019, hayat023, dongyeop\}@umn\.edu  

###### 摘要  
探究大语言模型（LLM）在大学教学与学习中的影响程度，有助于制定既能支持学生学习成果、又不会削弱其效果的LLM整合策略。本研究考察了不同程度的LLM辅助如何影响写作表现、参与度以及感知的作者身份。我们报告了一项初步研究，其中24名大学生被随机分配到三组：无LLM访问权限、有限访问权限（最多3次提示，每次回复不超过100字）或无限访问权限。各组之间整体论文质量在统计上无显著差异。然而，写作行为与感知的作者身份却出现明显分化：有限访问组的学生报告了更高的所有权（62.5%的人愿意将论文作为独立作品提交，而无限访问组仅为25%），更强的组织能力提升，以及更具策略性、聚焦于修改的提示使用行为。无限访问组则花费更多时间写作，其产出与LLM输出更相似，并报告了创造力表达的减弱。我们的研究结果表明，限制而非完全禁止LLM访问，或许能在保留AI辅助的支架作用的同时，维持学生的作者信心。  

## 1 引言  
LLM已日益嵌入学术写作实践，重塑着学生计划、撰写和修改文本的方式。基于LLM的工具，如ChatGPT和Grammarly，现在提供实时反馈和想法生成，降低了写作门槛，同时也引发了关于作者身份、学习和技能发展的问题。随着这些系统在教育环境中的常态化，理解它们对学生写作行为的影响至关重要。先前的研究主要将LLM辅助写作视为一种提高生产力和可及性的辅助手段，报告称其在流畅性、错误减少和头脑风暴支持方面对所有读写水平的人群都有益处，并且是支撑写作过程多个阶段的工具（Weijers等人，2024；Lee等人，2024；Zhang，2025；Xu，2025）。同时，研究人员警告称，持续依赖LLM可能会损害独立写作、创造力和批判性思维（Rohilla，2025；Gerlich，2025a）。也有研究未发现其对整体学业成绩有显著影响（Yoo等人，2025）。学生通常报告称，长期使用会降低信心和创造力，先前的研究也强调了与依赖、伦理模糊性以及同质化或有偏差输出相关的风险（Zhai等人，2024；Chakrabarty等人，2025）。人机交互研究进一步表明，AI的参与会负面影响对作者身份和写作质量的感知，尤其是在披露AI使用情况时（Draxler等人，2024；Li等人，2024；Mansour等人，2024；Joshi和Vogel，2025；Gerlich，2025b）。现有研究已表明，使用LLM会产生负面认知影响（Kosmyna等人，2025），但我们假设，在教育环境中，LLM访问权限的程度可能对LLM辅助工具的有效性起着重要作用。本研究通过探讨不同水平的LLM辅助如何影响学生写作，来填补这一空白，主要提出三个研究问题：  
- • RQ1：不同程度的LLM辅助如何影响学生的写作行为，包括时间分配、写作策略和提示使用习惯？  
- • RQ2：学生如何看待LLM辅助写作的作者身份、所有权和可接受性？  
- • RQ3：LLM辅助水平如何影响学生论文的写作质量、原创性和词汇多样性？  

为回答这些问题，我们进行了一项研究，让二十四名大学生根据给定提示写一篇论文。通过比较不同LLM辅助水平下产出的写作，本研究旨在阐明LLM辅助何时能提升写作效率，何时又开始侵蚀核心读写技能。我们发现，两个LLM辅助组都参与了类似的“写作-提示-编辑”循环，但策略导向不同：有限访问组的参与者将提示聚焦于主要修订和论点发展，而无限访问组的参与者则集中于细节的机械性修改。这些行为差异与感知的作者身份相对应：有限访问组的参与者报告了更强的所有权感、更大的组织改善程度，以及更高的意愿将该论文作为自己的作品提交。无限访问组的论文评分和词汇多样性略高，但差异无统计学意义。总体而言，研究结果表明，限制而非完全消除LLM访问，可能是在过度依赖的认知风险与AI辅助的支架作用之间提供一条中间路径。  

## 2 相关工作  
先前的研究通过考察与LLM的互动及行为结果，探讨了人机交互在学术写作需求中的应用。几项关于大学生使用LLM的研究发现，学习者主要依赖LLM进行头脑风暴、修改和信息检索（Jelson等人，2025；Kondoro，2025；Wang等人，2024）。虽然LLM助手能有效纠正表层语言错误，但持续使用已被证明会降低句法复杂性和语言多样性（Wang和Spitz，2025；Bui和Kim，2025；Pan等人，2025）。一些研究发现，AI素养较高、提示使用更具策略性的学生往往能写出更强的作品，而表现较差的学生往往未能充分利用或误用AI工具（Nguyen等人，2024；Kim等人，2025；Joshi和Vogel，2025）。少数研究观察到，当这些工具与教学结合使用时，学生的独立学习和英语写作能力有适度提升（Wang，2020；Seo，2024；Xiao，2024；Shen，2025）。  

然而，这些先前的工作存在局限性。大多数研究采用二元比较——AI与无AI——而非考察对不同AI访问水平的关系反应。这种框架掩盖了LLM使用的负面效应究竟是AI辅助本身的属性，还是其提供程度的问题。人们对过度依赖LLM会负面影响批判性思维技能的担忧日益普遍。调查研究揭示，许多学生和教师意识到了对LLM写作助手的过度依赖以及对学术不端行为的担忧（Aliakbari等人，2026；Joshi和Vogel，2025；Kondoro，2025；Khalid等人，2025）。几项研究表明，对LLM依赖程度较高的人批判性思维能力较低（Kosmyna等人，2025；Gerlich，2025a）。最近的研究转向通过定制化LLM助手来提高感知所有权和透明度的方法。一项研究发现，更高的AI透明度和可解释性与更积极的学生体验以及减少的滥用（包括学术不端和学习成果下降）相关（Cui，2025）。一些研究探讨了人机协作模式，并提出了以写作者为中心的LLM写作助手方法（Mysore等人，2025；Guo等人，2024；Liu和August，2025；Gerlich，2025b；Shibani等人，2024），但主要强调互动策略和设计建议，而未衡量这些干预措施是否实际改善了写作成果或减少了有问题的依赖模式。实证研究展示了LLM辅助的益处，以及AI对认知和批判性思维技能的有害影响，但在现实学术环境中的影响仍不明确（Yoo等人，2025）。综合这些空白，我们的研究聚焦于限制LLM访问如何影响学生在真实学术情境中的表现。  

## 3 方法  
我们旨在探究LLM为学生提供的辅助在多大程度上影响其写作体验。研究的主要关注点是，限制LLM使用是否能在LLM使用的负面认知效应与其益处之间提供一个可行的中间地带。¹¹¹本研究已获得IRB批准。  

表1：参与者人口统计信息（N=24）。  

### 3.1 参与者  
我们通过电子邮件招募了总共24名本科生和研究生，涵盖18个不同专业。参与者人口统计信息的详细信息见表1。71%的参与者自评为写作能力强（在5点Likert量表中选择了4或5）。参与者平均在过去10次写作任务中约有5次以某种方式使用了LLM工具。大多数在课程作业中使用LLM工具的学生报告使用了ChatGPT和内置工具如Grammarly。经常使用LLM工具的学生通常将其用于产生想法、在遇到困难时寻求帮助以及更好地理解材料。使用LLM工具频率较低的学生将LLM输出描述为重复和肤浅，并指出他们因环境担忧和学术诚信问题而避免使用LLM工具。  

### 3.2 研究流程  
首先，参与者完成一份初步调查以确定资格。资格要求是母语英语水平和本科生或研究生身份。参与者被随机分配到三组之一：对照组、有限LLM访问组或无限LLM访问组。然后，参与者完成大约30分钟的现场写作环节。所有参与者在IRB批准的协议下提供了知情同意。参与者被指示使用文本文档对论文提示进行至少300字的回应。说明见附录A.1。每位参与者收到相同的提示，如下所示：  

参见图注  
图1：研究流程。  

论文提示  
写一篇回应，讨论你在多大程度上同意或不同意该建议，并解释你所持立场的理由。  
大学生应该被鼓励追求他们感兴趣的科目，而不是那些似乎最有可能带来工作的课程。  

由于参与者在自己的个人电脑上完成写作任务，我们还指示他们禁用浏览器上所有AI写作扩展（例如Grammarly）。对照组的参与者在撰写论文时未获得任何LLM帮助，而其他组的参与者可以在写作过程中与基于LLM的聊天机器人交流。为了在网站上访问基于LLM的聊天机器人，我们使用Flask和Python实现了一个后端应用程序，并通过Vercel部署。我们使用了Gemini-2.5-Flash模型（Gemini Team，2025）作为聊天机器人，这是因为我们所在机构的许可。  

参见图注  
图2：有限访问组中带有突出显示LLM辅助部分的论文示例。该学生将LLM的回应交织在一起，以支持其论文的主要论点。  

有限LLM访问组和无限LLM访问组的参与者通过提供的链接与各自的聊天机器人互动。有限LLM组的写作助手带有一个系统提示，将其回复限制为一般性指导。完整的系统提示见附录A.2。该组还被允许最多向基于LLM的写作助手提问三次，而无限访问组则无此限制。提示次数是根据写作任务的较短长度选定的。有限LLM组有最大token输出限制，并且系统提示指令要求其提供简短回复，反映一般性指导并鼓励学生发展自己的想法，而非直接回答提示的长回复。同时，无限LLM组没有受限的token输出或特殊指令。完成论文后，参与者填写一份互动后调查，以评估他们对写作过程和论文的看法。参与者获得10美元礼品卡作为补偿。  

## 4 方法论  
### 4.1 数据收集与标注  
我们通过我们的Web应用程序收集了与LLM的互动，并标注了写作动作和互动。由于参与者数量有限且写作任务较短，我们基于先前的研究（Du等人，2022；Nguyen等人，2024）开发了一个简化分类法，包含以下四种写作意图：写作、编辑、结构化和提示。我们通过一个自定义的Web应用程序收集互动数据，该程序记录了参与者与LLM的交流，以及他们在Google Docs中的写作活动。这些日志使我们能够分析整个论文写作过程中的写作动作和提示行为。为理解参与者的写作行为，我们开发了一个包含写作过程中四种活动的分类法：写作、编辑、结构化和提示，这些活动基于先前关于写作过程和修改行为的研究。写作指生成完整句子的新文本，编辑指对已写内容进行修订，结构化涉及组织思路或为论文列提纲。提示指用户与LLM互动以支持写作。  

两名……

不同LLM访问级别对论文写作行为的影响

相似文章

为了内容而内容

利用熵提升大语言模型的创意写作能力

LLMs 正在如何影响科学交流？衡量写作实践与阅读体验的变化

使用LLM会让我变得更笨吗？

LLM人格归纳中的评估漂移：我们是否在移动目标？

提交意见反馈