前沿大模型“口头禅”激增:跨模型系统性分析

arXiv cs.CL 论文

摘要

首次系统性量化八款顶尖大模型的重复口头禅现象,提出“口头禅指数(VTI)”,发现模型间差异显著且严重损害自然度。

arXiv:2604.19139v1 公告类型:new 摘要:随着大语言模型(LLM)持续通过 RLHF、Constitutional AI 等对齐技术迭代,一种愈发刺眼的现象正在蔓延:口头禅激增——重复、套路化的语言模式充斥模型输出。从谄媚式开场(“好问题!”“Awesome!”)到伪共情回应(“我完全理解您的担忧”“我一直在这儿陪你”),再到泛滥用词(“delve”“tapestry”“nuanced”),不一而足。本文对八款 SOTA LLM 进行系统分析:GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Grok 4.2、豆包 Seed-2.0-pro、Kimi K2.5、DeepSeek V3.2、MiMo-V2-Pro。借助自定义评估框架,通过标准化 API 在 10 个任务类别、英汉双语环境下评估 10,000 条提示,共收集 160,000 条回复。我们提出“口头禅指数(VTI)”综合指标,量化口头禅密度,并分析其与谄媚度、词汇多样性、人类感知自然度的相关性。结果显示模型间差异显著:Gemini 3.1 Pro VTI 最高(0.590),DeepSeek V3.2 最低(0.295)。进一步发现,多轮对话中口头禅会累积,主观任务中更突出,且呈现跨语言差异。人工评测(N=120)证实,谄媚度与自然度呈强负相关(r=-0.87,p<0.001)。研究揭示当前对齐范式的“对齐税”,呼吁构建更真实的人机交互框架。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# 前沿大模型中的“口头语”激增:跨模型系统分析
来源:https://arxiv.org/html/2604.19139  
吴帅 硕士候选人,首席研究员 & 李雪 硕士,研究助理 & 冯雅娜 博士候选人,学术顾问 & 李玉芳 博士,学术顾问 & 王志军 博士,研究顾问 & 王然 学士,研究助理  

(2026 年 4 月)

###### 摘要

随着大语言模型(LLM)通过 RLHF、Constitutional AI 等对齐技术持续进化,一种愈发显眼的现象正在蔓延:口头语激增——重复、公式化的语言模式充斥模型输出。它们包括谄媚式开场(“That’s a great question!”、“Awesome!”)、伪共情安抚(“I completely understand your concern”、“I’m right here to catch you”)以及高频词(“delve”、“tapestry”、“nuanced”)等。本文对 8 个 SOTA 模型(GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro、Grok 4.2、Doubao-Seed-2.0-pro、Kimi K2.5、DeepSeek V3.2、MiMo-V2-Pro)进行系统分析。基于统一 API 的自定义评测框架,我们在 10 类任务、中英双语环境下各采集 10,000 条提示,共获得 160,000 条模型回复。我们提出“口头语指数”(VTI)量化口头语密度,并分析其与谄媚度、词汇多样性、人类自然度感知的相关性。结果显示,Gemini 3.1 Pro 的 VTI 最高(0.590),DeepSeek V3.2 最低(0.295)。口头语在多轮对话中累积,在主观任务中放大,且跨语言呈现不同模式。人工评测(N=120)表明,谄媚度与感知自然度显著负相关(r=−0.87,p<0.001)。结果揭示当前对齐范式的“对齐税”,呼吁更真实的人机交互框架。

*关键词* 大语言模型 ⋅ 口头语 ⋅ 谄媚 ⋅ RLHF ⋅ 对齐税 ⋅ 词汇多样性 ⋅ 口头禅 ⋅ 伪共情

## 1 引言

大语言模型的迅猛发展彻底改变了人机交互格局。GPT-5.4(OpenAI, 2026)、Claude Opus 4.7(Anthropic, 2026)、Gemini 3.1 Pro(Google DeepMind, 2026)等模型每日承担数十亿次对话、创作与知识服务。成功关键之一在于对齐训练——通过 RLHF(Ouyang et al., 2022)和 Constitutional AI(Bai et al., 2022)等微调,使模型有益、无害、诚实。

然而,随着对齐技术规模化,一种独特的语言副产品日益显眼:口头语。我们将其定义为“在模型输出中以不成比例的高频出现、独立于具体语境的重复、公式化表达”。表现形式包括:

- • 谄媚式开场:对用户输入的夸张赞美或肯定(如“That’s a great question!”、“您的洞察太犀利了!”)。
- • 伪共情安抚:套路化的情绪理解,常显空洞(如“I completely understand your concern”、“我一直在这儿,接住你”)。
- • 模糊限定:防御性软化措辞(如“It’s important to note that…”、“坦率地说……”)。
- • 高频词:统计异常的高频词汇(如“delve”、“tapestry”、“nuanced”、“多维”、“深度”)。
- • 填充过渡:不必要的连接短语(如“Furthermore”、“Moreover”、“下面我一步步带你拆解”)。

该现象已在学界与公众领域被广泛讨论。Sharma et al. (2023) 最早发现 RLHF 模型在多评测范式下系统性谄媚;Cheng et al. (2026) 在《Science》证实,谄媚 AI 回复削弱用户亲社会意图并助长依赖(N=2405)。斯坦福 2026 AI Index 进一步指出模型透明度下降,引发对行为机制的忧虑。

本文对前沿 LLM 的口头语进行跨模型、跨语言系统分析,贡献如下:

1. 1. 中英口头语系统分类与细粒度标注。  
2. 2. 提出“口头语指数”(VTI)统一度量。  
3. 3. 8 模型 × 10 任务 × 10 复杂度 × 20 轮对话大规模评测。  
4. 4. 跨语言对比揭示差异模式。  
5. 5. 人工评测(N=120)关联 VTI 与自然度、有用性、信任。  
6. 6. 基于 t-SNE 的口头语嵌入空间可视化。

## 2 相关研究

### 2.1 语言模型中的谄媚

Sharma et al. (2023) 在五款主流助手上首次发现一致性谄媚行为,指出 RLHF 模型易附和用户错误信念。Carro (2024) 发现谄媚与用户信任呈复杂关系:短期讨喜,长期损誉。Batzner et al. (2025) 梳理了谄媚测量的五大操作化难点,强调其本质为人因现象。Cheng et al. (2026) 的里程碑研究进一步证明,谄媚回复不仅改变感知,还主动助长依赖并降低亲社会意图。

### 2.2 重复与语言模式

Yao et al. (2025) 通过稀疏自编码器定位重复生成层级;Xu et al. (2022) 的 DITTO 框架在训练阶段惩罚伪重复,兼顾质量与多样性。

### 2.3 AI 检测与语言指纹

 detectors 利用困惑度、突发性等指标捕捉 LLM 输出的统计可预测性。“delve”、“tapestry”等词已成为 AI 写作的代名词。

### 2.4 医学等垂直领域的谄媚

Kim et al. (2026) 在十款模型的多轮医疗对话中发现,模型在明确选择题上比模糊诊断更易被用户推翻翻案,凸显临床决策支持的风险。

## 3 方法

### 3.1 评测模型

我们选取 8 个代表不同架构、训练方法与组织背景的 SOTA 模型,见表 1。

表 1:评测模型概览。均通过统一框架调用官方 API 获取回复。  
Model | Developer | Access | Notes  
GPT-5.4 | OpenAI | API | 最新 GPT 系列  
Claude Opus 4.7 | Anthropic | API | Constitutional AI  
Gemini 3.1 Pro | Google DeepMind | API | 多模态  
Grok 4.2 | xAI | API | 实时知识  
Doubao-Seed-2.0-pro | ByteDance | API | 中文优化  
Kimi K2.5 | Moonshot AI | API | 长文本专家  
DeepSeek V3.2 | DeepSeek | API | MoE 架构  
MiMo-V2-Pro | Xiaomi | API | 推理强化  

### 3.2 实验平台

采用自研统一评测框架(https://github.com/Noah-Wu66/Vectaix-AI),通过 provider 专用适配器实现请求格式化、回复解析与日志记录,保证实验一致性。

### 3.3 数据集构建

构建 10,000 条提示,覆盖 10 类任务,每类 1,000 条,中英双语各一份,共 20,000 交互/模型,总计 160,000 回复。API 调用时间为 2026 年 3 月 1–15 日。

表 2:任务类别与描述(略,与英文一致)。

### 3.4 口头语检测流程

三阶段自动管道:

1. 1. 词典匹配:200+ 英文、150+ 中文口头语,含位置规则(如“Absolutely!”仅在句首才计谄媚)。  
2. 2. 统计异常:以维基+ Reddit 5 万句为人样,TF-IDF 检测 n-gram(n∈{1,2,3,4})过度使用。  
3. 3. 语义聚类:用 all-MiniLM-L6-v2 将相似口头语(余弦>0.85)归簇,捕捉改写形式。  
多类别冲突时按上下文概率取最高分,避免重复计数。

### 3.5 口头语指数(VTI)

VTI=α·TicRate+β·(1−TTRnorm)+γ·SycScore+δ·RepRate  
α=0.3, β=0.2, γ=0.3, δ=0.2 经网格搜索最大化与人工排序的秩相关(验证集 500 句)。

- TicRate:含口头语回复占比。  
- TTRnorm:200 词滑动窗口 MATTR,英文 spaCy,中文 jieba。  
- SycScore:谄媚开场+伪共情占比。  
- RepRate:跨句独特短语重复率。

### 3.6 人工评测

招募 120 名大学生(中英各 60),每人随机评 50 条回复,5 级 Likert 打分:自然度、有用性、谄媚感知、信任、厌烦度、重复度。共 6,000 标注,Krippendorff’s α=0.72。

## 4 结果

### 4.1 整体口头语指数

图 1 显示各模型 VTI,英文、中文及总体。Gemini 3.1 Pro 最高(0.590),DeepSeek V3.2 最低(0.295)。

表 3:完整 VTI 及分量(略,与英文一致)。

相似文章

大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。