LLMs 正在如何影响科学交流？衡量写作实践与阅读体验的变化

arXiv cs.CL 2026/05/20 04:00 论文

llm scientific-communication ai-assisted-writing language-change nlp reading-experience

摘要

本文研究写作中大型语言模型日益增长的使用如何改变科学交流，利用 ACL 论文语料库和合成数据展示词汇和风格变化，并通过专家标注将这些变化与主观阅读体验联系起来。

arXiv:2605.19936v1 公告类型：新摘要：由于在写作过程中越来越多地使用大型语言模型，科学交流的风格是否发生了变化？我们在自然语言处理领域通过利用我们创建的两个数据资源来探讨这个问题：一个包含 ACL Anthology（2020-2024）中超过 37,000 篇论文的自然语料库，以及一个包含 3,000 段人工撰写段落及其 LLM 生成改进的合成数据集。我们首先进行了一系列历时词汇分析，表明词频和使用语境都随时间显著变化，在某些情况下显示出语义专化，在其他情况下则显示出语义泛化。扩大视角后，我们接着对一系列更复杂的风格特征进行建模，发现经过 LLM 修改的文本更频繁地包含某些句法结构，词汇更复杂、更长，且词汇多样性较低。最后，我们通过一项包含 20 位领域专家的试点标注研究，将这些写作实践的变化与主观阅读体验联系起来。他们总体认为经过 LLM 改进的文本更易理解、更令人兴奋，但也表达了对 LLM 的负面定性态度，凸显了 AI 辅助写作对阅读体验的强烈主观影响。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:27

# LLM 正在对科学交流做什么？衡量写作实践和阅读体验的变化 来源：https://arxiv.org/html/2605.19936 ###### 摘要 由于大型语言模型在写作过程中的使用日益增多，科学交流的风格是否发生了变化？我们在自然语言处理领域探讨这一问题，利用了我们创建的两个数据资源：一个包含 ACL Anthology（2020-2024 年）超过 37,000 篇论文的自然语料库，以及一个包含 3,000 个由人类撰写的段落及其 LLM 改进版本的合成数据集。我们首先进行了一系列历时性词汇分析，表明词频和使用语境都随时间发生了显著变化，在某些情况下表现为语义专门化，在另一些情况下则表现为语义泛化。扩大视角后，我们对一系列更复杂的风格特征进行了建模，发现经过 LLM 修改的文本更频繁地包含某些句法结构，词汇更复杂、更长，且词汇多样性更低。最后，我们通过一项包含 20 位领域专家的试点标注研究将这些写作实践变化与主观阅读体验联系起来。总体而言，他们评价 LLM 改进的文本更易于理解且更令人兴奋，但也表达了对 LLM 的负面定性态度，凸显了 AI 辅助写作对阅读体验的强烈主观影响。 关键词：AI 辅助写作、科学交流、语言变化 \\NAT@set@cites LLM 正在对科学交流做什么？衡量写作实践和阅读体验的变化 Filip Miletić111同等贡献。\* Neele Falk111同等贡献。\*斯图加特大学自然语言处理研究所，德国 \{filip.miletic, neele.falk\}@ims.uni-stuttgart.de 摘要内容 ## 1. 引言 大型语言模型（LLMs）越来越多地被用于辅助人类写作，包括在科学交流等高利害领域。这些变化的迅速性和普遍性引发了疑问：它们可能以何种方式改变主流的写作实践（例如词汇和风格选择），以及这些实践随后对阅读体验（例如文本的感知清晰度和可信度）有何影响？尽管已有证据表明这些变化正在出现，但先前的工作存在两个主要局限。首先，最近的一些研究考察了 LLM 生成的科学文本独特的语言特性（Ma 等人，2023（https://arxiv.org/html/2605.19936#bib.bib19）；Muñoz-Ortiz 等人，2024（https://arxiv.org/html/2605.19936#bib.bib23）；Zanotto 和 Aroyehun，2024（https://arxiv.org/html/2605.19936#bib.bib45）；Zamaraeva 等人，2025（https://arxiv.org/html/2605.19936#bib.bib44）），但它们通常比较的是完全由人类撰写的文本与完全由模型生成的文本。这种明确的区分过于简化了更细微的实践：LLM 通常用于改进人类撰写的文本，而不是生成整个段落（Koller 等人，2024（https://arxiv.org/html/2605.19936#bib.bib14）；Kobak 等人，2025（https://arxiv.org/html/2605.19936#bib.bib13））；此外，现实生活中的文档往往在纯人类写作和 LLM 改进写作之间交替，而不是包含统一数量的生成文本（Lee 等人，2022（https://arxiv.org/html/2605.19936#bib.bib16）；Richburg 等人，2024（https://arxiv.org/html/2605.19936#bib.bib32））。第二个主要缺陷是关注识别生成文本的独特属性，而没有系统衡量它们对人类读者的影响。即使包含了这类衡量，也仅限于区分人类与 LLM 写作的能力等宽泛模式（Gao 等人，2023（https://arxiv.org/html/2605.19936#bib.bib6）；Ma 等人，2023（https://arxiv.org/html/2605.19936#bib.bib19））。因此，写作风格的客观差异与更主观但至关重要的阅读体验维度之间的联系仍有待建立。本文旨在对科学交流中 LLM 的使用进行更现实、更全面的评估。我们设计研究以捕捉人–LLM 写作的协作性质以及此类干预在文档中的不均匀分布，并明确将这些写作实践的独特特征与主观阅读体验联系起来。 我们对 ACL Anthology 中的 NLP 论文进行分析，并定义了两个大约各两年的时期，分别对应 ChatGPT 于 2022 年 11 月发布之前和之后。我们将这两个时期视为反映社群层面的写作实践：前者不包含任何，而后者可能包含一些由面向公众的 LLM 撰写的写作。为了补充这种自然场景，我们在更受控的合成环境中模拟 LLM 的真实使用：我们从 ChatGPT 之前的论文中抽取 3,000 个片段，并生成这些片段的模型改进版本。我们提出以下研究问题： RQ1 这两个时期之间核心的语言选择发生了怎样的变化？ RQ2 更复杂的风格属性在多大程度上是这两个时期各自特有的？ RQ3 这些写作实践上的差异是否导致不同的阅读体验？ 我们首先通过一系列历时性词汇分析评估语言选择的差异：使用统计语料库指标识别新兴术语；使用类型级词嵌入描述其语义属性的广泛变化；以及使用词元级词嵌入自动检索其在特定时间的使用。扩大焦点后，我们通过回归分析研究不同的语言特征——如文本长度、情感、语法和词汇变异性以及可读性——如何在解释人类写作与 LLM 辅助写作之间的变异方面发挥作用。最后，我们进行一项标注研究，对比人类撰写的文本与其 LLM 生成的改进版本，并请 20 位领域专家在清晰度、真实性、可信度和兴奋度方面对阅读体验进行评分。 我们做出以下贡献： (1) 我们表明，ChatGPT 之后的论文以更复杂的词汇选择（例如，使用 enhance 而非 improve）和进一步的风格属性（例如，更低的词汇多样性）为特征。通过比较来自 ACL Anthology 的自然数据和来自文本生成实验的合成数据，我们确认这些写作实践可归因于 LLM 的使用。 (2) 我们进一步发现，这些风格变化与主观阅读体验的差异有关，LLM 改进的文本被认为更清晰、更令人兴奋。 (3) 我们发布了 ACL-OCL 语料库的更新版本（Rohatgi 等人，2023（https://arxiv.org/html/2605.19936#bib.bib33）），其中包含来自 ACL Anthology 的 99.3k 篇论文的 PDF 提取文本。我们还提供了一个单行脚本，用于获取未来的论文。 (4) 我们发布了 3,000 对人类撰写的文本及其 LLM 生成的改进版本，以及 200 对人类阅读体验的标注。111数据和代码可在 https://github.com/FilipMiletic/ScientificCommunication 获取 ## 2. 相关工作 #### AI 生成内容的检测。 随着 LLM 普及的相应增长，近年来对自动检测 AI 生成内容的兴趣日益增加。这包括发布数据集和基准测试，以训练检测工具并评估不同方法（例如，Chen 等人，2023（https://arxiv.org/html/2605.19936#bib.bib2）；Li 等人，2024（https://arxiv.org/html/2605.19936#bib.bib17）；Guo 等人，2023（https://arxiv.org/html/2605.19936#bib.bib10）；Dugan 等人，2024（https://arxiv.org/html/2605.19936#bib.bib5）；Macko 等人，2023（https://arxiv.org/html/2605.19936#bib.bib20）；Wang 等人，2024（https://arxiv.org/html/2605.19936#bib.bib39））。检测 AI 生成文本的技术包括水印（Zhao 等人，2025（https://arxiv.org/html/2605.19936#bib.bib46））、微调基于 Transformer 的分类器（Guggilla 等人，2025（https://arxiv.org/html/2605.19936#bib.bib9））、使用模型相关特征（Wu 等人，2025（https://arxiv.org/html/2605.19936#bib.bib42））或语言特征（Hamed 和 Wu，2023（https://arxiv.org/html/2605.19936#bib.bib12））。222关于检测 AI 生成内容的全面概述，请参考 Wu 等人（2025（https://arxiv.org/html/2605.19936#bib.bib42））的综述。虽然对于完全 AI 生成的内容通常能取得良好结果，但人–AI 合作撰写文本的检测仍然是一个重大挑战，需要对现有模型进行调整（Richburg 等人，2024（https://arxiv.org/html/2605.19936#bib.bib32）；Su 等人，2025（https://arxiv.org/html/2605.19936#bib.bib37））。早期工作包括 CoAuthor 数据集（Lee 等人，2022（https://arxiv.org/html/2605.19936#bib.bib16）），其中包含使用 GPT-3 建议增强的论文，而更近期的数据集则侧重于人–AI 共同撰写文本的不同变体（例如，人类撰写然后机器润色）（Wang 等人，2025（https://arxiv.org/html/2605.19936#bib.bib40））。 #### 人类撰写的文本与 AI 生成或 AI 修改文本之间的风格差异。 几项工作更直接地探讨了人类与 AI 生成文本在风格特征上的差异。主要涉及的领域包括新闻文章（Muñoz-Ortiz 等人，2024（https://arxiv.org/html/2605.19936#bib.bib23）；Zamaraeva 等人，2025（https://arxiv.org/html/2605.19936#bib.bib44））、论文（Akinwande 等人，2024（https://arxiv.org/html/2605.19936#bib.bib1））以及科学文章的摘要（Ma 等人，2023（https://arxiv.org/html/2605.19936#bib.bib19））。现有工作考察了所有可能的类别特征，例如某些句法结构的频率、n-gram、模糊表达、词汇复杂性、修辞属性和情感。AI 生成内容中常见的语言特性包括：词汇变化较低（Zanotto 和 Aroyehun，2024（https://arxiv.org/html/2605.19936#bib.bib45）；Akinwande 等人，2024（https://arxiv.org/html/2605.19936#bib.bib1）；Yildiz Durak 等人，2025（https://arxiv.org/html/2605.19936#bib.bib43））、更积极的情感（Muñoz-Ortiz 等人，2024（https://arxiv.org/html/2605.19936#bib.bib23）；Zamaraeva 等人，2025（https://arxiv.org/html/2605.19936#bib.bib44））、更少的复合词（Zamaraeva 等人，2025（https://arxiv.org/html/2605.19936#bib.bib44）），以及过度使用某些动词和修饰语，如 delve、crucial 或 intricate（Gray，2024（https://arxiv.org/html/2605.19936#bib.bib7）；Kobak 等人，2025（https://arxiv.org/html/2605.19936#bib.bib13）；Reinhart 等人，2025（https://arxiv.org/html/2605.19936#bib.bib31））。一些工作使用这些特征来预测文本是人类还是 AI 生成的，并识别最强预测因子（Ma 等人，2023（https://arxiv.org/html/2605.19936#bib.bib19）；Desaire 等人，2023（https://arxiv.org/html/2605.19936#bib.bib3）；Akinwande 等人，2024（https://arxiv.org/html/2605.19936#bib.bib1））。一些工作还调查了人类对 LLM 生成文本的感知，例如 Gao 等人（2023（https://arxiv.org/html/2605.19936#bib.bib6））和 Hakam 等人（2024（https://arxiv.org/html/2605.19936#bib.bib11））发现人类标注者在区分人类和 LLM 生成的科学文本方面存在困难。Russell 等人（2025（https://arxiv.org/html/2605.19936#bib.bib34））表明，具有频繁 LLM 写作经验的标注者能更好地检测生成的新闻。在 Doru 等人（2025（https://arxiv.org/html/2605.19936#bib.bib4））的研究中，参与者对科学文本进行分类，并对其流畅性、质量和连贯性进行评分。Lin 和 Zhu（2025（https://arxiv.org/html/2605.19936#bib.bib18））发现，研究人员主要使用 LLM 来提高清晰度和简洁性，自 ChatGPT 发布以来导致写作风格更加同质化。 大多数先前的研究侧重于完全生成的文本，并且很少比较人类–AI 合作撰写与纯人类写作。因此，我们比较 ChatGPT 发布后发表的文章与稍早前发表的文章，预期即使只有一部分被 LLM 修改，也会出现较弱但可检测的语言转变。此外，频繁接触 LLM 生成的语言可能导致研究人员无意识地采纳其风格。与大多数先前研究不同，我们分析全文而非摘要，因为 LLM 的使用可能发生在所有章节。尽管 LLM 相关词汇和语言特征已被研究，但它们很少被放在一起考察，并且现有研究通常集中在表面层面的趋势。特别是词汇选择，除了基于频率的分析之外，仍然探索不足，尽管存在成熟的语义变化建模方法（Tahmasebi 等人，2021（https://arxiv.org/html/2605.19936#bib.bib38）；Schlechtweg，2023（https://arxiv.org/html/2605.19936#bib.bib36））。最后，科学文本中 LLM 生成内容的主观感知几乎未被研究，这就是我们通过一项涉及 20 位领域专家的阅读体验试点研究来补充数据驱动分析的原因。 ## 3. 数据 我们现在介绍我们的两个英语数据资源：一个来自 ACL Anthology 的 NLP 论文自然语料库（以下简称原始数据集）；以及一个由人类撰写的段落及其 LLM 生成的改进版本组成的合成数据集（以下简称 LLM 数据集）。 ### 3.1. ACL Anthology 语料库 由于我们的工作重点是 NLP 社群中的科学交流，我们分析来自 ACL Anthology333https://aclanthology.org/ 的论文，这是计算语言学协会（ACL）的开放获取出版库。作为起点，我们使用 ACL-OCL 语料库（Rohatgi 等人，2023（https://arxiv.org/html/2605.19936#bib.bib33）），其中包含约 73,000 篇论文。这些论文是通过爬取 Anthology 网站上的 PDF 文件，然后使用 GROBID444https://github.com/kermitt2/grobid 提取全文获得的。原始语料库的内容截止于 2022 年 9 月，据我们所知此后未再更新。因此，我们实施了一次更新，使其时间跨度更接近当前。我们还注意到另外两个反复出现的问题。原始时间跨度内的一些论文在 Anthology 中可用，但未包含在语料库中，可能是由于爬取过程中的覆盖问题。其他论文包含在语料库中，但由于文件问题（例如，GROBID 提取失败，或爬取时 Anthology 中缺少 PDF，尤其是早期会议），其元数据关联的全文内容缺失。在我们的更新中，我们不再爬取 Anthology 网站，而是使用其 BibTeX 导出作为可用论文最全面的结构化记录。我们依赖 BibTeX 信息根据引用键识别缺失的论文，提取其元数据，并重构其 URL。我们下载相应的 PDF 文件，然后使用 GROBID 提取论文文本。这个过程还恢复了原始语料库中缺乏文本内容的部分论文的文本内容；我们移除了任何仍然没有文本内容的论文。我们还为更新后的语料库附带提供了代码（作为单行命令运行），该代码将本地可用论文与 Anthology 中的论文进行比对，并将任何缺失的论文通过完整的更新流程处理。 更新后的语料库包含截至 2024 年底的 99.2k 篇论文。出于本研究的目的，我们围绕 LLM 使用的一个关键时间点——ChatGPT 于 2022 年 11 月发布——定义了一个分为两个时间段的子语料库。第一个时间段（t1t\_\{1\}）包含 2020 年至 2022 年发表的论文。其最后一次重大会议活动是 EMNLP 2022，该会议已经

相似文章

为了内容而内容

Armin Ronacher

作者探讨了LLM如何影响编码和日常语言中的用词，发现LLM偏好的词汇在编程会话和Google Trends中出现的频率均有所增加，这引发了人们对人类开始采用LLM写作风格的担忧。

Linguistic Monoculture in LLM-Assisted Language Use

arXiv cs.AI

This paper introduces a mathematical framework to study how reliance on shared LLMs for writing may reduce population-level linguistic diversity, analyzing fixed, recursive, and personalized interaction mechanisms and characterizing equilibria and convergence rates.

LLMs 正在如何影响科学交流？衡量写作实践与阅读体验的变化

相似文章

为了内容而内容

Linguistic Monoculture in LLM-Assisted Language Use

利用熵提升大语言模型的创意写作能力

像科学家一样思考？LLM生成研究方法的结构化研究

LLM 需要多少结构？评估 LLM 用于文献计量聚类描述

提交意见反馈