大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL 论文

摘要

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。

arXiv:2605.23651v1 公告类型:新 摘要:尽管长期以来,大型语言模型(LLM)的研究聚焦于事实正确性和任务性能,但生成文本在语言学层面上与人类的相似程度这一根本问题仍未充分探讨。从语料库语言学的角度看,语言生产本质上依赖于语境,不同的交际语境会导致语言特征频率和共现模式的差异。一段不符合这些模式的文本可能在内容上是正确的,但人类读者仍不喜好。在这项工作中,我们提出了一个语境感知的评估框架,其中通过比较给定语域的人类参考语料库与对应LLM生成语料库的语言特征分布的两样本问题来评估人类相似度。我们使用最大均值差异(MMD)和Biber引入的67个词汇语法特征(常用于语料库语言学)来实现该框架。在我们的实验中,我们比较了七个经过指令微调的开源模型,涵盖五个不同语域的英语数据集,并与人类基线进行对比。在所有测试设置中,LLM均偏离人类基线,但哪些模型最接近人类语言取决于语域,而非由模型规模决定。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:02

# 大型语言模型有多像人类?一种语域感知的语言评估框架

来源:https://arxiv.org/html/2605.23651

Björn Nieth1,4, Marianna Gracheva2, Michaela Mahlberg2,3, Bjoern Eskofier1,3,5,6, Emmanuelle Salin1

1Department Artificial Intelligence in Biomedical Engineering \(AIBE\), FAU Erlangen\-Nürnberg, Germany  
2Department of Digital Humanities and Social Studies \(DHSS\), FAU Erlangen\-Nürnberg, Germany  
3University of Birmingham, United Kingdom  
4Chair of AI\-supported Therapy Decisions, LMU München, Munich, Germany  
5Munich Center for Machine Learning \(MCML\), Munich, Germany  
6Institute of AI for Health, Helmholtz Zentrum München, Neuherberg, Germany  

\{bjoern\.nieth, marianna\.gracheva, michaela\.mahlberg, bjoern\.eskofier, emmanuelle\.salin\}@fau\.de

###### 摘要

长期以来,大型语言模型的研究主要关注事实正确性和任务性能,但在语言学层面生成的文本有多像人类这一基本问题却未被充分探索。从语料库语言学的角度来看,语言生成本质上依赖于语境,不同的交际语境会导致语言特征频率和共现模式的差异。若文本不符合这些模式,即使内容正确,也可能让人类读者感到不自然。本文提出了一种语境感知的评估框架,通过比较给定语域的人类参考语料库与对应的大型语言模型生成语料库之间的语言特征分布,利用双样本问题来评估人类相似度。我们使用最大均值差异(Maximum Mean Discrepancy, MMD)和 Biber 引入的 67 个词汇语法特征实现了该框架,这些特征在语料库语言学中广泛应用。实验中,我们将七个经过指令微调的开源模型在五种英语数据集上(涵盖不同语域)与人类基线进行了比较。虽然在所有测试设置中,大型语言模型均偏离了人类基线,但哪个模型最接近人类语言取决于语域,而非模型大小决定。

# 大型语言模型有多像人类?一种语域感知的语言评估框架

Björn Nieth1,4, Marianna Gracheva2, Michaela Mahlberg2,3, Bjoern Eskofier1,3,5,6, Emmanuelle Salin1

1Department Artificial Intelligence in Biomedical Engineering \(AIBE\), FAU Erlangen\-Nürnberg, Germany  
2Department of Digital Humanities and Social Studies \(DHSS\), FAU Erlangen\-Nürnberg, Germany  
3University of Birmingham, United Kingdom  
4Chair of AI\-supported Therapy Decisions, LMU München, Munich, Germany  
5Munich Center for Machine Learning \(MCML\), Munich, Germany  
6Institute of AI for Health, Helmholtz Zentrum München, Neuherberg, Germany

\{bjoern\.nieth, marianna\.gracheva, michaela\.mahlberg, bjoern\.eskofier, emmanuelle\.salin\}@fau\.de

## 1 引言

对大型语言模型(LLM)能力的研究主要集中在任务或领域导向的基准测试、专门指标(如忠实度,例如相对于给定输入或参考的接地 Es et al. (2024 (https://arxiv.org/html/2605.23651#bib.bib10)))或下游任务性能上。虽然这些指标对于评估大型语言模型能力的特定方面很有用,但它们未能解决大型语言模型生成的语言在多大程度上接近人类语言使用这一根本问题。随着以个人聊天机器人形式出现的大型语言模型越来越被公众采用,各种媒体中遇到的大型语言模型生成文本的比例将会增加。因此,评估这些生成的文本在多大程度上复现了人类语言中观察到的特定语言模式变得越来越重要。

参考图例
Figure 1: 所提出评估框架的概述。给定特定语域 r,我们收集人类语料库和 LLM 生成的语料库。然后从文本中提取一组 67 个语言特征。最后,我们计算人类样本与合成语料库之间的距离,并重新采样人类样本之间的距离作为基线。

从语言学角度看,并不存在标准的人类语言模式,因为人类语言生成本质上依赖于情境因素,如交际目的、受众、媒介、生成环境等 Biber and Conrad (2019 (https://arxiv.org/html/2605.23651#bib.bib7))。这些情境因素构成了一个语域。如果不对语域加以注意,对大型语言模型语言的一般性分析是没有意义的,因为不同语域(例如研究文章、新闻、对话等)之间的差异如此之大,以至于无法得出一般性结论 Biber (2012 (https://arxiv.org/html/2605.23651#bib.bib6)), Veirano Pinto (2023 (https://arxiv.org/html/2605.23651#bib.bib35))。某些特征在某个语域中频繁出现,是因为特定使用情境需要它们。因此,人类语言倾向于为某个语域产生共同的频率和共现模式。我们将语域对齐定义为产生在语言学上符合目标语域的语言的能力。这是人类交流中的一个隐含部分。大型语言模型生成的文本若未能符合某一语域的特定特征性语言特征,就会导致文本被认为不自然。这甚至可能导致文本无法达到其交际目的,从而对人类读者不利 Berber Sardinha (2024 (https://arxiv.org/html/2605.23651#bib.bib4))。因此,越来越多的研究工作通过分析这些文本的语言特征来关注大型语言模型生成的文本。虽然这些研究提供了关于 AI 生成文本与人类撰写文本差异的经验证据,但它们存在局限性,往往未能恰当衡量模型的语域对齐程度。为了克服这些局限,我们引入了一个语域感知的评估框架,重点关注语料库之间语言特征的分布差异。我们的方法概览如图 1 (https://arxiv.org/html/2605.23651#S1.F1) 所示。我们将代码、生成设置和结果随论文一起发布¹¹代码和结果可于以下网址获取:https://github.com/BjoernNieth/Register_Aware_LLMs。我们的主要贡献包括:

- • 一种基于语言特征和最大均值差异(MMD)评估大型语言模型生成文本人类相似度的方法。
- • 对该框架的开源实现和分析,使用了 Biber 引入的 67 个语言特征。
- • 包含五个语域的人类基线基准,以及七个模型在零样本和少样本设置下的生成结果,此外还对其中一个语域进行了提示稳定性的消融研究。

## 2 相关工作

传统的大型语言模型评估基准集中在任务性能(例如 MMLU Hendrycks et al. (2021 (https://arxiv.org/html/2605.23651#bib.bib16)))或领域理解上,通常通过多项选择题进行(例如 ChemBench Mirza et al. (2025 (https://arxiv.org/html/2605.23651#bib.bib26)), LegalBENCH Guha et al. (2023 (https://arxiv.org/html/2605.23651#bib.bib15)), MedQA Jin et al. (2021 (https://arxiv.org/html/2605.23651#bib.bib17))),而不评估大型语言模型生成的文本是否适合底层语域。大型语言模型在基准测试上的表现甚至受到预训练数据中语域存在与否的影响 Myntti et al. (2025 (https://arxiv.org/html/2605.23651#bib.bib28))。文档级大型语言模型生成文本检测任务与我们的设置紧密相关,因为用于分类的相同特征也可以用于在语料库层面研究语言。大型语言模型生成文本检测的两种常见方法是:1)以白盒或黑盒方式使用大型语言模型,以及 2)基于语言特征的方法 Wu et al. (2025 (https://arxiv.org/html/2605.23651#bib.bib38))。像 Ghostbuster Verma et al. (2024 (https://arxiv.org/html/2605.23651#bib.bib36)) 或 DetectGPT Mitchell et al. (2023 (https://arxiv.org/html/2605.23651#bib.bib27)) 这样的模型都使用大型语言模型输出的概率来检测大型语言模型生成的文本。在文档级检测之外,MAUVE Pillutla et al. (2021 (https://arxiv.org/html/2605.23651#bib.bib31)) 使用大型语言模型的量化嵌入,通过 KL 散度的散度前沿 Djolonga et al. (2020 (https://arxiv.org/html/2605.23651#bib.bib8)) 来评估两个语料库之间的人类相似度。MAUVE 得出了文本人类相似度的度量,该度量与人类判断高度相关。MAUVE 的一个主要缺点是它依赖于人类无法解释的模型嵌入。另一方面,使用语言特征的模型已被证明足以在各种不同设置中检测大型语言模型生成的文本 Aityan et al. (2025 (https://arxiv.org/html/2605.23651#bib.bib1)); Yadagiri et al. (2025 (https://arxiv.org/html/2605.23651#bib.bib39)); Li and Zhang (2025 (https://arxiv.org/html/2605.23651#bib.bib19)); Zaitsu et al. (2025 (https://arxiv.org/html/2605.23651#bib.bib41)); Przystalski et al. (2024 (https://arxiv.org/html/2605.23651#bib.bib32))。多项分析研究使用类似的语言特征,在语料库层面研究了人类文本与大型语言模型生成文本之间的差异。它们要么在单一语域上隐含地进行此研究 Zamaraeva et al. (https://arxiv.org/html/2605.23651#bib.bib42); Bagdasarov and Alves (2025 (https://arxiv.org/html/2605.23651#bib.bib3)); Georgiou (https://arxiv.org/html/2605.23651#bib.bib12),要么在多个语域上进行研究 Reinhart et al. (2024 (https://arxiv.org/html/2605.23651#bib.bib33)); Berber Sardinha (2024 (https://arxiv.org/html/2605.23651#bib.bib4)); Milička et al. (2025a (https://arxiv.org/html/2605.23651#bib.bib24), b (https://arxiv.org/html/2605.23651#bib.bib25))。虽然这些研究都显示了人类与大型语言模型在语言生成上的系统性差异,但它们存在几个局限性。首先,先前的研究通常评估显式语域条件下的语域对齐,典型方式是让模型继续一段已经具有语域特定性的人类文本 Reinhart et al. (2024 (https://arxiv.org/html/2605.23651#bib.bib33)); Milička et al. (2025a (https://arxiv.org/html/2605.23651#bib.bib24), b (https://arxiv.org/html/2605.23651#bib.bib25))。在这种设置中,特定语域的语言模式已经存在于示例中,语域对齐要求模型只需继续这些模式。这主要评估的是模型的预训练,而非其内在的语域概念。其次,一些分析比较了语言特征的边缘样本分布或共现模式,但未量化观察到的差异。虽然这些结果提供了经验性见解,但它们缺乏一个可以在未来工作中优化的清晰度量。相比之下,我们提出一个框架,在隐式语域条件下测量语域对齐,这意味着模型必须纯粹从提示中提供的情境上下文推断出目标语域风格。我们的框架(ii)采用受控且透明的提示,(iii)比较了跨架构和规模的开源模型,以及(iv)将人类相似度表述为多维且可解释的语言特征上的双样本问题。

## 3 方法论

我们的方法概览如图 1 (https://arxiv.org/html/2605.23651#S1.F1) 所示。第一部分包括语料库生成。给定一个目标语域 r,我们首先收集一个人类参考语料库,子采样一个有代表性的子集,并使用其元数据构建自然语言提示。这些提示指示大型语言模型使用类似的情境上下文生成文本。由于提示不包含原始文本部分,因此它们符合我们对隐式语域条件设置的定义。使用不同的大型语言模型,在零样本和少样本设置下,我们为语域 r 生成并行语料库 \(\tilde{C}_{r,\theta}\)。对于每个文本,我们提取一组语言特征,并将每个语料库编码到多维特征空间中。最后,在该空间中,我们将人类相似度问题表述为通过 \(\mathrm{MMD}(\tilde{C}^{1}_{r}, \tilde{C}^{r,\theta}‚)\) 量化的双样本问题。为了评估观察到的距离是否表示有意义的距离,我们将其与 \(\mathrm{MMD}(\tilde{C}_{r}^{1}, \tilde{C}_{r}^{2})\) 进行比较,其中 \(\tilde{C}_{r}^{1}\) 和 \(\tilde{C}_{r}^{1}\) 是从完整语料库 \(C_{r}\) 中重复子采样的两个不相交子集,以获得人类样本间预期最大均值差异的置信区间。

### 3.1 数据生成

设 \(R = \{r_{1}, \dots, r_{K}\}\) 表示一组目标语域。对于每个语域 \(r \in R\),我们定义语料库 \(C_{r} = \{(t_{i}, m_{i})\}_{i=1}^{N_{r}}\),其中 \(t_{i} \in V^{*}\) 是人类撰写的文本,\(V^{*}\) 是词汇表 \(V\) 上所有有限序列的集合,\(m_{i}\) 是提供关于 \(t_{i}\) 特定上下文的元数据,\(N_{r}\) 是语料库的大小。我们通过为每个语域 r 定义一个自然语言提示模板 \(p_{r}(m_{i})\) 来表达隐式语域条件,该模板将元数据翻译成一个描述语言生成任务的任务提示。给定一个带参数 \(\theta\) 的模型,我们通过自回归采样(使用提示模板 \(p_{r}(m_{i})\))生成模型输出 \(\tilde{t}_{i}\),从而产生一个特定于语域的合成语料库 \(\tilde{C}_{r,\theta} = \{(\tilde{t}_{i}, m_{i})\}_{i=1}^{N_{r}}\)。取一组人类演示,我们可以定义一个少样本提示模板 \(p_{r,s}(m_{i}, \tilde{C}_{r})\),其中 \(\tilde{C}_{r}\) 是语域 r 的人类撰写文本语料库,且 \((t, m) \in \tilde{C}_{r} \implies (t, m) \notin C_{r}\),s 是“shots”的数量,即从 \(\tilde{C}_{r}\) 中取出的用于构造提示的文本数量。使用此提示模板,我们可以通过以相同方式对模型进行采样来生成少样本合成语料库 \(\tilde{C}_{r,\theta,s}\)。少样本示例通过带种子的随机函数选择,使得每个模型对每个实例 \(\tilde{t}_{i}\) 使用相同的提示。

### 3.2 分布框架

给定如上述所述的语料库 C,我们定义一组向量 \(X = \{(x_{i})\}_{i=1}^{N_{r}}\),其中 \(x_{i} \in \mathbb{R}^{d}\),作为将函数 \(f: V^{*} \mapsto \mathbb{R}^{d}\) 应用于 C 中每个元素的结果集。\(x_{i}\) 中的每一维描述文本 \(t_{i}\) 中一个特定语言特征的频率。在我们的工作中,函数 f 由一个程序实现,该程序统计文本中特定语言特征的出现次数。在此框架中,我们将观察到的集合 \(X_{r}\) 和 \(\tilde{X}_{r,\theta}\) 视为来自两个基础分布 \(P_{r}\) 和 \(P_{r,\theta}\) 的样本。在这种解释下,模型与期望的人类分布之间的差异通过计算 \(D(X_{r}, \tilde{X}_{r,\theta})\) 来量化,其中 \(D(\cdot, \cdot)\) 是某种计算距离的函数。

相似文章

AI生成文本检测中语言特征的系统性分析:跨领域与跨模型研究

arXiv cs.CL

一项大规模实证研究对284个语言特征在27个大语言模型和10个文本领域中的表现进行了分析,以评估哪些特征能够可靠地检测AI生成文本。研究发现,词汇丰富度指标是跨领域和跨模型最稳健的信号,而许多其他已提出的指标则高度依赖具体上下文。