人类与AI生成语言的动态:语义在不同时间尺度上的波动
摘要
本文引入了一种语义-时间尺度分析流程,研究人类和AI生成语音中通用与特定内容随时间分布的方式,揭示自相关窗口度量能够捕捉超越静态词汇分布的语义时间组织。
arXiv:2606.11371v1 公告类型:新
摘要:无论是人类还是大型语言模型(LLM)生成的口语,其语义内容随时间变化展开。然而,我们仍然缺乏简单、可解释的时间序列特征来捕捉通用与特定内容随时间分布的方式,并用于比较人类和AI生成的语音。我们引入了一种语义-时间尺度分析流程,将带有时间戳的词级转录转化为语义时间序列。对于每个口述叙事,我们计算(i)基于WordNet的词深度表示的语义特异性,以及(ii)使用SBERT嵌入的上下文相似度,并通过自相关窗口度量(ACW-0及相关指标)量化其时间依赖性。然后,我们将原始语音与多个打乱对照进行比较,这些对照选择性地扰乱词汇身份、时间顺序和词时长。在人类阅读的自传体叙事、TTS朗读以及TTS渲染的LLM生成文本中,我们发现语义时间序列中ACW-0较长的片段倾向于包含更多通用词汇,而ACW-0较短的片段则富含更多特定词汇。当词序和时间随机化时,这些关联显著减弱或消失,表明基于ACW的度量捕捉了超越静态词汇分布的非平凡语义时间组织。我们的结果表明,基于ACW的语义时间尺度是分析和比较人类与AI生成语音时间结构的一组有用特征。
查看缓存全文
缓存时间: 2026/06/11 13:36
# //creativecommons.org/licenses/by-nc-nd/4.0/)。正式发表文章:https://doi.org/10.1016/j.csl.2026.102013。来源:https://arxiv.org/html/2606.11371 ## 人类与 AI 生成语言的动态——语义如何在不同时间尺度上波动111© 2026。本手稿版本依据 CC BY-NC-ND 4.0 许可证(https://creativecommons.org/licenses/by-nc-nd/4.0/)提供。正式发表文章:https://doi.org/10.1016/j.csl.2026.102013。Yasir Çatal,Angelika Wolman,Agustín Ibáñez,David Smith,I-Wen Su,Kai-Yuan Cheng,Georg Northoff(2026年4月30日) ###### 摘要 无论是人类还是大型语言模型(LLM)生成的口语,其语义内容都会随时间动态变化。然而,我们仍缺乏简单、可解释的时间序列特征来捕捉通用与具体内容随时间分布的方式,并用于比较人类与 AI 生成的语音。我们引入了一种语义-时间尺度分析流程,将带有时间戳的词语级转录转换为语义时间序列。对于每个口语叙事,我们计算 (i) 使用基于 WordNet 的词深度的语义特异性,以及 (ii) 使用 SBERT 嵌入的上下文相似性,并通过自相关窗口度量(ACW-0 及相关指标)量化其时间依赖性。然后,我们将原始语音与多种打乱控制条件进行比较,这些条件选择性破坏词汇身份、时间顺序和词语时长。在人类朗读的自传叙事、TTS 朗读以及 LLM 生成的文本(经 TTS 呈现)中,我们发现语义时间序列中 ACW-0 值较长的片段倾向于包含更多通用词汇,而 ACW-0 值较短的片段则包含更多具体词汇。当词序和时序被随机化时,这些关联显著减弱或消失,表明基于 ACW 的度量捕捉了语义内容超越静态词汇分布的非平凡时间组织。我们的结果表明,基于 ACW 的语义时间尺度是分析和比较人类与 AI 生成语音时间结构的一组有用特征。 ###### 关键词:语义学,自相关窗口,大型语言模型,语音处理,WordNet,语音时间尺度 ††期刊:Computer Speech & Language## 引言 时间尺度是动态系统的核心概念,从酶动力学、生态系统到神经活动和语言(Çatal 等,2024;Henzler-Wildman 等,2007;Regev 等,2024;Scheffer & Carpenter,2003)。在每个案例中,时间尺度表征有意义事件的持续时间或信息整合的速率。在神经科学中,内在时间尺度的层级结构支持在不同时间窗口内处理感觉信息:早期感觉区域的较短时间尺度追踪快速变化的输入,而高级区域的较长时间尺度整合句子和段落(Hasson 等,2008;Honey 等,2012;Lerner 等,2011;Wolff 等,2022)。语言是这一逻辑最直接适用的领域之一:信息随时间展开,其整合的时间尺度——从音素、词语到句子、话语和扩展叙事——一直是心理语言学、语音科学和神经科学的核心组织概念(Levelt,1989;Hasson 等,2015)。这些传统从不同角度探讨信息与时间的关系,各自揭示了不同的时间尺度。从信息论视角来看,熵率恒常原则和均匀信息密度(UID)假设描述了信息如何在语言单位中分布(Genzel & Charniak,2002;Jaeger & Levy,2007)。近期研究表明,信息内容以结构化、可预测的方式波动,形成与话语位置、层级结构和语境基础系统相关的"信息轮廓"(Giulianelli & Fernández,2021;Giulianelli 等,2021;Tsipidi 等,2024;Gay 等,2026),表现出频谱和周期组织(Yang 等,2023;Xu 等,2024;Tsipidi 等,2025;Ou 等,2025),并在对话过程中趋于收敛(Xu & Reitter,2018)。与此同时,研究已确立信息和时序在实现层面是耦合的:更可预测的词语具有更短的时长和减少的声学细节,将惊奇度与精细的韵律和发音结构联系起来(Aylett,1999;Aylett & Turk,2004,2006;Bell 等,2003)。然而,在这些传统中,时间仅以两种形式进入分析。第一种,时间是文本序列中离散单位(词元、句子、段落)的序数位置,没有物理持续时间。第二种,时间表现为单个语音单位的时长,作为每个单位的一个标量因变量,由可预测性解释——每个词或音节生成一个数据点。相对较少关注的是第三种处理方式:时间既不是位置索引也不是单位标量,而是语义信号沿其展开的连续轴——分析对象不是单个词语的时长,而是语义值在真实时间中跨多秒窗口排列时涌现的时间模式,直接使用自相关和频谱分解等时间序列度量来表征。这引出一个直接问题:当语义内容本身被视为与真实口语时间对齐的信号时,它是否表现出这种非随机的时间组织?这种组织是否系统性地追踪内容属性,例如内容的通用性或具体性?本研究使用来自动态系统研究的时间尺度工具(例如自相关窗口度量)来解决这些问题,补充而非重复基于惊奇度的分析。为填补这些空白,我们重新安排并扩展现有方法,形成一个统一的语音语义时间尺度分析框架。首先,我们将连续语音(传统上通过声学特征分析)转换为高分辨率语义时间序列,结合基于 WordNet 的词深度作为词汇特异性的代理(Miller,1995;Princeton University,2010)以及 SBERT 嵌入以捕捉上下文相似性(Reimers & Gurevych,2019)。其次,我们通过融合两个传统中的互补工具来表征这些信号的时间结构:自相关窗口首次过零点(ACW-0),一种在内在神经时间尺度研究中发展的时域持续时间依赖性度量(Honey 等,2012;Golesorkhi 等,2021;Wolff 等,2022);以及频域描述符——幂律指数(PLE)和平均频率(MF)——类似于最近用于表征文本信息轮廓的频谱工具(Yang 等,2023;Tsipidi 等,2025;Ou 等,2025)。这些共同提供了特异性与上下文意义如何在真实口语时间上波动的时频联合描述。第三,我们构建一系列打乱控制条件,选择性破坏词汇身份、时间顺序和词语-时长的配对,使我们能够测试观察到的时间尺度是否反映语音时序的平凡属性,或语义内容的非平凡时间组织。我们研究通用-具体轴,因为它提供了一个简单、理论中立的操作化方法,对语言处理有明确含义。行为和神经影像研究表明,特异性涉及时部分不同的处理路径,与更通用的概念相比,更具体的概念通常与更高的处理需求和不同的激活模式相关(Paivio,1991;Crossley 等,2009,2012;Binder 等,2016;Bolognesi 等,2020;Bi,2021;Vignali,2023;Jamali 等,2024)。尽管具体性和特异性并不相同,但它们通常呈中等相关(Crossley 等,2009,2012),使通用-具体梯度成为探测语义组织的有用低维轴。基于这些观察,我们假设语音的时间组织将根据其语义内容的不同而不同:富含通用、低深度词语的片段将表现出更长的 ACW-0,与更广泛、更持续的语义跨度一致;而富含具体、高深度词语的片段将表现出更短的 ACW-0,与更局部集中的语义内容一致。这一预测与更广泛的原则一致:不同类型的内容在不同特征时间尺度上整合,这一模式在语言神经处理中有充分记录(Lerner 等,2011;Hasson 等,2015)。在此框架内,我们提出三个相关问题。第一(Q1),从语音中提取的语义信号——操作化为 WordNet 深度和基于 SBERT 的语义相似性时间序列——与打乱或时序随机化的控制相比,是否表现出非随机的时间结构?第二(Q2),语义时间尺度长度(ACW-0)与词汇特异性之间是否存在系统关系,使得由通用与具体内容主导的片段占据不同的时间窗口,并且当我们选择性破坏词身份、顺序或时序时,这些关系是否仍然存在?第三(Q3),这些模式在人类语音、人类驱动的文本转语音(TTS)和 LLM 驱动的 TTS 中是否稳健,还是特定于某一种生产模态?以这些问题来构建工作,强调我们的目标不是声称时间尺度"创造"意义,而是提供可操作、可检验的描述符,说明语义信息在语音中如何时间组织。总之,我们提出一个通用流程,将连续语音转换为语义时间序列,并使用迄今为止主要应用于神经数据的工具(例如 ACW-0)表征其时间结构。通过将该流程与精心设计的打乱控制、动态对齐程序(例如动态时间规整;Müller,2007)以及联合时频表征(ACW-0, PLE, MF)相结合,并将其应用于人类叙事、传统 TTS 和 LLM 驱动的 TTS,我们测试语义时间尺度是否 (i) 存在于口语中且非随机,(ii) 与通用与具体词汇内容系统相关,以及 (iii) 适用于人类和 AI 生成的语音。然而,我们将 LLM 驱动的条件视为探索性扩展,而非人类与 AI 语言表征的干净测试,因为生成的时序由生成内容和 TTS 合成共同塑造。此外,近期研究强调了当前 LLM 在全面捕捉意义方面的局限性(Dentella 等,2024)。因此,我们谨慎解释这些发现,将其视为支持基于时间尺度的语义特征在不同语音生成条件下的比较有用性,而非人类与 AI 语言处理等效的证据。这为将基于时间尺度的语义特征整合到语音处理计算模型以及新兴的大型语言模型临床应用(例如连贯性和思维障碍评估;Holmlund 等,2023;Palominos 等,2024)开辟了道路。参考图注图 1:分析流程概览。(a) 我们使用词深度和 SBERT 相似性研究语义是否存在波动和动态。(b) 接下来,我们探究特定语义内容(词深度)是否与这些波动中的较长或较短时间尺度相关。## 1 方法 ### 1.1 受试者与数据采集 本研究探索了三个数据集:人类驱动的人类朗读(H-H)、人类驱动的文本转语音模型朗读(H-TTS)和 LLM 驱动的文本转语音模型朗读(LLM-TTS)。对于第一个数据集,从加拿大渥太华当地社区招募了 27 名健康受试者(10 名女性;平均年龄 = 30.3 岁)。实验方案获得渥太华大学心理健康研究所伦理委员会批准(REB #2016004)。口语录音来自 Smith 等人(2022)的研究,参与者被要求录制不定向的八分钟自传叙事(*M*= 1103 词,*SD*= 221 词)。在我们的分析中,进一步排除了三名受试者,原因是预处理后文本转录精度低。另外一名受试者因 WordNet 不支持其语言而被排除,导致最终样本量为 17 名受试者。我们使用另外两个数据集重复了所有分析。H-TTS 数据集包含由 OpenAI 开发的文本转语音(TTS)模型(OpenAI,2024)生成的音频,该模型使用了从 17 名 H-H 受试者自我介绍的原始转录文本。LLM-TTS 数据集包含基于 GPT-4 生成的文本经 TTS 转换的二十个音频(*M*= 600 词,*SD*= 67 词)。使用的提示词是:"你是一个研究项目的人类参与者。请给自己分配一个名字。现在你需要进行大约 5000 词的口头自我介绍。"(TTS 和语音转文本转录的详细说明见补充方法 1、2) ### 1.2 WordNet 深度和 SBERT 相似性采样 我们从连续语音中推导出两个简单的逐时刻单值信号。(i) WordNet 深度(特异性)信号。每个口语词语链接到其 WordNet 同义词集(词义)(WordNet 版本:通过 NLTK 3.9.1 包的 WordNet 3.0,2024)。在 WordNet 层次结构中,同义词集的深度是从根节点("唯一初始节点")到该同义词集的最短路径长度(图 2c)。由于许多词语存在多义性,我们将词语的深度定义为平均同义词集深度(较低深度 = 更通用;较高深度 = 更具体)。我们强调,该度量是词汇-分类学特异性的粗略代理,而非词语意义的完整上下文敏感表征。WordNet 将词语组织成由语义关系链接的同义词集,但跨所有同义词集取平均不执行词元级词义消歧(WSD),因此可能模糊上下文不同的意义。因此,我们的目标不是模拟每个词语的确切意图意义,而是测试这一粗略的词汇特异性信号在对齐到真实口语时间后,是否在话语中表现出非随机的时间组织。为评估词义平均是否显著影响信号,我们额外使用 Lesk 算法进行了基于 WSD 的敏感性检查。平均词深度与基于 WSD 的词深度呈高相关(r=0.8379,p<0.001)(补充结果 9)。(图 2a)。为评估 WordNet 深度是否反映我们数据集中有意义的词汇-语义结构,我们将其与人类语音词汇中的独立词汇规范进行相关分析,包括特异性评分(Muraki and Pexman, 2026)和具体性评分(Brysbaert et al., 2014)。WordNet 深度与具体性(*r*= 0.460,*p*< 0.001)和特异性(*r*= 0.143,*p*< 0.001)均呈正相关。与先前区分具体性与分类特异性并将 WordNet 类层次结构与抽象/
相似文章
HawkesLLM:智能体文本模拟中的语义不确定性传播
本文介绍了HawkesLLM,一个通过结合用于时间影响和记忆选择的多变量Hawkes过程与用于文本生成的语言模型,对多步骤智能体文本模拟中的语义不确定性传播进行建模的框架。在GDELT新闻级联案例研究上的评估表明,在紧凑的提示-记忆约束下,后期语义对齐得到了改善。
掩码语言模型中Glauber Dynamics的混合时间
本文分析了使用Glauber dynamics的掩码语言模型中迭代掩码标记重采样所引发的全局分布行为。引入了一种用于不相容性的矩形检验,建立了混合时间界限,并通过实验展示了相变和亚稳态语义盆地。
学习者能动性与自主性的大规模语义映射揭示测量与生成式AI研究忽视的内容
本文利用对超过14,000篇出版物的大规模语义分析,绘制了学习者能动性与自主性的定义图谱,揭示了三个维度,并指出现有量表系统性地低估了社会文化维度。文章指出,当前教育领域的生成式AI研究过度聚焦于学习调控,从而窄化了为AI中介学习环境所设计的行为库。
使用多模态语言模型检测社交媒体上的AI生成内容
来自Meta和卡内基梅隆大学的这篇论文提出了一种多模态视觉-语言模型管道,用于检测社交媒体上的AI生成内容,实现了最先进的性能,并对用户参与度产生了积极的下游影响。
Sem-Detect: 面向语义级别的AI生成同行评审检测方法
Sem-Detect 提出了一种结合文本特征与声明级语义分析的方法,用于区分AI生成的同行评审与人类撰写的评审。在0.1%假阳性率下,其真阳性率相比基线提升了25.5%,并且表明经过大语言模型润色的人类评审仍保留独特的语义信号,仅有不到3.5%被误判为AI生成。