面向类型学可控词汇生成的模块化架构
摘要
本文提出了一种模块化框架,用于生成可发音、类型学上合理且语义结构化的工词汇,该框架使用来自PHOIBLE的音位清单和概率语法,优于确定性基线方法。
arXiv:2605.28824v1 公告类型:新
摘要:构建可发音、类型学上合理且语义结构化的工词汇仍然是计算语言学中的一项开放挑战。现有的人造语言生成器要么缺乏正式的语音配列保证,要么将生成过程委托给不透明且不可复现的基于LLM的流水线。我们提出了一种模块化框架,从PHOIBLE中采样音位清单,在可互换的音系语法(确定性、OT和MaxEnt)下生成词形,并通过Swadesh--Leipzig--Jakarta本体论分配意义,同时实现显式的形式-意义对齐。在词汇规模为100至5,000词形的情况下,基于字符n元语法困惑度、对数似然和与PHOIBLE的KL散度的评估表明,概率语法在语音配列连贯性和类型学真实性方面始终优于确定性和随机基线。
查看缓存全文
缓存时间: 2026/05/29 09:10
# 一种面向类型学可控词汇生成的模块化架构
来源:https://arxiv.org/html/2605.28824
Sankalp Tattwadarshi Swain, Dhruv Kumar
Birla Institute of Technology and Science, Pilani
Pilani, Rajasthan 333031, India
\{f20230769, dhruv.kumar\}@pilani.bits-pilani.ac.in
###### 摘要
构建可发音、在类型学上合理且语义结构清晰的人工词汇,在计算语言学中仍是一项未解决的挑战。现有的构造语言生成器要么缺乏正式的音位配列保证,要么将生成过程委托给不透明、不可复现的基于LLM的流水线。我们提出一个模块化框架,该框架从PHOIBLE中采样音位库,在可互换的音系语法(确定性语法、优选论和最大熵语法)下生成词形,并通过一个包含显式形式-意义对齐的斯瓦迪士-莱比锡-雅加达本体来分配意义。在100到5000个词形的词汇量上,基于字符n-gram困惑度、对数似然以及相对于PHOIBLE的KL散度的评估表明,概率性语法在音位配列连贯性和类型学真实性两方面均一致优于确定性和随机基线。
## 1 引言
对音系和词汇结构进行建模,对于理解语言系统如何被形式化表示、学习和生成至关重要 (Prince & Smolensky, 2004; Hayes & Wilson, 2008)。该问题的一个实际重要实例是**基于类型学基础的词汇生成**:构建人工词汇,将可发音、音位配列良好的词形映射到意义,同时保持与跨语言音系模式的一致性。现有方法要么是基于规则的工具,提供设计者控制权,但缺乏正式的音位配列保证和类型学基础 (Heyer, 2021; Cai & Martens, 2023);要么是基于LLM的流水线,能产生看似合理的输出,但完全牺牲了解释性和可复现性 (Alper et al., 2025; Taguchi & Sproat, 2025)。关键在于,现有系统无法让研究人员在固定音位库和约束集的情况下改变音系语法——这是分离任何单一形式化对词汇结构贡献的最低要求。
我们引入一个模块化、完全参数化的词汇生成框架,通过将流水线分解为三个独立可控的组件来解决这一空白。首先,音系库采样器从PHOIBLE频率分布中抽取音位库 (Moran & McCloy, 2019),并通过一个统计基础的修复阶段来强制执行经过实证验证的蕴涵普遍性。其次,一个词生成模块在四种可互换的语法形式化(确定性语法、优选论(OT)、和谐语法(HG)和最大熵语法(MaxEnt))下,对候选形式进行共享约束集的评估——这些语法仅在约束违反的解决方式上不同,确保每个生成的词形在构造上就是可发音的。第三,一个语义分配模块将生成的形式映射到来自合并的莱比锡-雅加达和斯瓦迪士本体的意义上,优化音系距离和语义距离之间的斯皮尔曼等级相关性,从而产生一个词汇库,其中形式-意义对齐是一个显式目标而非附带属性。
我们从两个互补的维度,在100到5000个词形的词汇量上对框架进行定量评估。结果表明,概率性语法(OT和MaxEnt)在两个维度上均一致优于确定性和随机基线,而确定性语法通过分类约束强制执行付出可测量的类型学代价,该过程系统地扭曲了音位分布。这项工作对于语言建模社区具有相关性,既是探测LLM中音位配列知识的受控测试平台,也是为低资源语音和语言建模生成可发音、基于类型学的合成语料的流水线。
##### 贡献。
我们的主要贡献如下:
- • **模块化、参数化的词汇生成**。我们提出了一个统一框架,其中确定性语法、OT、HG和MaxEnt音系语法在共享的音位库和共享的约束集上运行。新颖之处不在于语法本身,而在于它们与基于类型学的音位库采样相结合,能够实现现有系统不支持的对不同形式化的无混淆实证比较。
- • **基于类型学的音位库采样**。我们将PHOIBLE频率分布和经过统计验证的蕴涵普遍性作为结构化生成先验整合到音位库构建中,使生成的词汇根植于跨语言的类型学现实。
- • **可发音性作为形式保证**。通过在生成时强制执行音位配列约束——包括响度顺序原则、音节首/尾结构和鼻音-塞音同部位性——框架保证每个输出词形都是结构良好的,使词汇成为口语构造语言的有原则基础。
- • **通过语义优化的形式-意义对齐**。我们引入一种爬山式语义分配过程,最大化音系距离和本体语义距离之间的斯皮尔曼等级相关性,将词汇象似性作为显式生成目标进行操作化。
- • **定量评估框架**。我们引入了一个联合评估协议,结合字符级语言模型困惑度和平均对数似然与相对于类型学参考分布的KL散度,提供了一个用于比较**生成的**词汇的音位配列良好性和类型学真实性的定量基准。
- • **跨语法兼容性分析**。我们通过实证证明,OT和MaxEnt诱导出分布等价的音位配列空间,而确定性语法生成的是概率性音位配列模式的严格子集。
表1:词汇生成系统在五个维度上的比较:音位库来源、词形生成、音位配列、语义和类型学基础。我们的系统是唯一将所有五个维度统一到单个流水线中的系统。
## 2 背景
##### 形式音系语法。
优选论通过严格支配下的层级化约束层级来形式化音位配列良好性 (Prince & Smolensky, 2004),而和谐语法将其放松为数值权重方案 (Smolensky & Legendre, 2006),最大熵语法则进一步将其扩展为基于加权约束违反的完全概率模型 (Goldwater & Johnson, 2003; Hayes & Wilson, 2008)。这些框架各自已被研究并应用于孤立的个别自然语言。然而,一种统一的架构——其中确定性、OT、HG和MaxEnt模型在共享的音位库和共享的约束集上运行,从而实现直接、无混淆的实证比较——此前尚未被提出。
##### 类型学数据库和音位库建模。
跨语言资源如PHOIBLE (Moran & McCloy, 2019) 汇集了来自数千种语言的音位库,编码了蕴涵普遍性和定量标记分布,表明音位库是由普遍类型学压力塑造的结构化对象。尽管这些数据丰富,但将类型学数据库作为结构化生成先验集成到语言生成流水线中的音位库采样中,这一问题尚未得到解决。
##### 基于规则和过程的构造语言生成。
Heyer (2021) 和 Cai & Martens (2023) 证明了通过用户定义的音位模板和可参数化的音节流水线,自动化的构造语言构建是可行的。然而,这两个系统都没有将其音位库根植于跨语言数据,都没有使用形式音系语法,也没有提供任何对生成输出的音位配列良好性或类型学合理性的定量度量——这一空白阻止了严格的评估或跨参数设置的可复现比较。
##### 神经和概率性音位配列模型。
Futrell et al. (2017) 引入了一个贝叶斯生成模型,该模型跨类型学多样的语言捕捉次词汇音位配列结构;Pimentel et al. (2020) 使用LSTM语言模型,在106种语言上建立了音位配列复杂性的神经每音位比特度量。虽然这些贡献表明概率性和神经方法能够相当精确地刻画自然词汇的音位配列结构,但将这些模型应用于在受控类型学条件下且具有结构化语义分配的**生成**新词汇,这一问题尚未被解决。
##### 用于构造语言生成的大型语言模型流水线。
Alper et al. (2025) 引入了ConlangCrafter,一个通过宏观WALS特征多样性度量评估的多跳LLM流水线;Taguchi & Sproat (2025) 提出了IASC,一个将音位配列语法生成为可执行代码的代理系统。两者都将音位配列决策委托给LLM,产生不透明、不可复现且没有形式良好性保证的输出。两者都没有在单词层面评估音位配列质量,也不支持对语法形式化的受控消融实验。
## 3 方法论
### 3.1 概述
我们的词汇生成框架包含两个主要组件:(1) 一个统计基础的音系库采样器,以及 (2) 一个在采样的音位库上运行的模块化词生成系统。流水线首先通过借鉴来自PHOIBLE的跨语言频率分布,构建一个类型学上合理的音位库 (Moran & McCloy, 2019)。然后,这个音位库作为四个可互换的音位配列语法——确定性语法、优选论(OT)、和谐语法(HG)和最大熵语法(MaxEnt)——的固定、共享基础;这些语法共享相同的约束表示,但在违反如何被评估和解决方面根本不同。这种设计特意将建模于音位库层面的类型学真实性与建模于语法层面的音位配列变化分离开来,从而能够在单一统一架构内对分类性和概率性音系形式化进行受控比较。
### 3.2 音系库采样
音系采样器将语音系统建模为从经验结构化的类型学分布中抽取的样本。每个音位被分配一个与其在PHOIBLE音位库中的跨语言频率成正比的基准采样概率,从而以概率方式操作化标记性:类型学上常见的音段被优先选择,而不分类排除任何已证实的音段类型。
音位库大小受到跨语言分布的约束。辅音和元音数量被采样,使得元音与辅音的比例落在 [0.15, 0.40] 范围内,反映了已证实的类型学范围 (Moran & McCloy, 2019)。可选的典型模式将采样限制在特定的结构子空间——例如,小型的CV主导系统或辅音丰富的系统——从而在保持经验合理性的同时实现受控的类型学变化。
为了捕捉蕴涵普遍性和共现趋势,我们对PHOIBLE音位库进行了特征层面的统计分析。为了验证这些类型学约束的统计基础,我们计算了所有PHOIBLE音位库的皮尔逊相关系数和卡方统计量(表2)。相关分析表明,音位库大小与标记性音段类别的存在呈正相关:辅音数量与挤喉音存在显著相关(r=0.324, p<0.001)以及吸气音存在(r=0.188, p<0.001),而元音数量与元音长度对比相关(r=0.412, p<0.001),这证明了将标记性音段采样概率条件于音位库大小的合理性。对于若干特征对,卡方检验得出 χ²=0 且 p=1.0,这个结果最初暗示独立性,但经检查反映的是接近确定性的蕴涵结构,伴随空或接近空的列联单元格。由于卡方检验假设对称变化,它不适合检验方向性普遍性;因此我们转向条件概率 P(Y|X) 作为蕴涵强度的直接度量(表3)。这一分析表明,五个纳入的蕴涵普遍性中有四个是完全分类性的(P=1.0),而剩下的一个是接近普遍性的(P=0.997,失败率=0.003)。综合来看,这些结果证实,编码在采样器中的约束反映了经过统计验证的类型学规律性,而非启发式假设,为真普遍性的确定性执行和接近普遍性的概率性执行提供了实证基础。
| 关系 | 统计量 | 值 | p值 |
|---|---|---|---|
| 辅音数量 vs. 挤喉音存在 | r | 0.324 | <0.001 |
| 辅音数量 vs. 吸气音存在 | r | 0.188 | <0.001 |
| 音位库大小 vs. 吸气音存在 | r | 0.188 | <0.001 |
| 元音数量 vs. 元音长度对比 | r | 0.412 | <0.001 |
| 挤喉音 ↔ 小舌音 | χ² | 0.000 | 1.000 |
| 咽音 ↔ 小舌音 | χ² | 0.000 | 1.000 |
| 鼻化元音 ↔ 口元音 | χ² | 0.000 | 1.000 |
| 浊塞擦音 ↔ 清塞擦音 | χ² | 0.656 | 0.418 |
| 擦音 ↔ 塞音 | χ² | 0.000 | 1.000 |
| 前圆唇 ↔ 前非圆唇 | χ² | 0.000 | 1.000 |
表2:在所有PHOIBLE音位库上计算的皮尔逊相关系数 (r) 和卡方统计量 (χ²)。相关值衡量音位库大小与标记性音段存在之间的对称关联;卡方值反映特征共现检验。所有相关结果在 p<0.001 水平上显著。
| 蕴涵 (X → Y) | 总数 X | 违规数 | P(Y|X) | 失败率 |
|---|---|---|---|---|
| 有/e/ → 有/i/ | 2058 | 0 | 1.000 | 0.000 |
| 有/p/ → 有/m/ | 2058 | 0 | 1.000 | 0.000 |
| 有/k/ → 有/p/ | 2053 | 0 | 1.000 | 0.000 |
| 有/t/ → 有/n/ | 2038 | 0 | 1.000 | 0.000 |
| 浊塞擦音 → 清塞擦音 | 1582 | 5 | 0.997 | 0.003 |
表3:采样器中纳入的五条蕴涵普遍性的条件概率结果。`总数 X` 表示前件特征存在的音位库数量;`违规数` 计数后件特征缺失的案例;P(Y|X) 是经验条件概率;`失败率` 是补足比例。五条蕴涵中有四条是完全分类性的(P=1.0);浊塞擦音-清塞擦音蕴涵是接近普遍性的(P=0.997)。
### 3.3 词生成框架
所有词相似文章
从输入端最小化模态差距:您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型
提出了 TextPro-SLM,一种通过处理口语输入使其类似于具备韵律感知能力的文本来最小化模态差距的语音大语言模型,以少量的训练数据实现了强大的副语言理解能力。
ConlangCrafter:使用多跳LLM流程构造语言
ConlangCrafter是一个多跳LLM流程,通过将构造语言(conlang)创建过程分解为包括音系、形态、句法、词汇生成和翻译在内的模块化阶段,实现构造语言的自动化创建。该系统利用LLMs的元语言推理能力,结合随机性注入和自我完善来生成连贯且类型学多样的构造语言。
从扁平语言标签到类型学先验:多语言语音到语音翻译的结构化语言条件
提出了S2ST-Omni 2,一个多对一的组合式语音到语音翻译框架,用结构化类型学先验取代扁平语言标签以改进多语言适配,在CVSS-C上取得了优越性能。
# 巴别塔的大语言模型
本文反思了文本生成的历史,在现代大语言模型(如 GPT-4)与豪尔赫·路易斯·博尔赫斯和克劳德·香农的早期概念之间建立了联系。文章探讨了香农的概率实验以及博尔赫斯“巴别图书馆”的隐喻,如何有助于阐明关于生成文本本质和数据结构的根本问题。
大型语言模型有多像人类?一个关注语域的语言评估框架
本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。