基于微积分的端到端自动语音识别词汇量确定框架

arXiv cs.CL 论文

摘要

本文提出了一种基于微积分的框架,利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数,并在Librispeech语料库上提升了性能。

arXiv:2605.14427v1 Announce Type: new 摘要:在混合自动语音识别(ASR)系统中,词汇量是明确的,通常由语言中存在的音素、双音素或三音素的数量决定。相比之下,端到端ASR系统的词汇量(通常称为词元)来源于用于训练文本语料库。词汇量的选择和大小是训练端到端ASR系统的一个关键超参数。字节对编码(BPE)、WordPiece和Unigram语言模型(ULM)等分词算法将词汇量作为输入超参数,以生成ASR训练中使用的子词。ESPNet等流行工具包在其训练方案中提供了固定的词汇量,但文献中关于这些值如何确定的记录或讨论很少。最近的工作[1]形式化了一种方法来确定最适合端到端ASR的词汇量,引入了一个将分词过程视为黑盒的成本函数框架。在本文中,我们在此基础上通过对训练数据进行曲线拟合,并利用微积分中的一阶和二阶导数检验原理来正式估计词汇量超参数。我们通过在标准Librispeech语料库上应用该方法,展示了方法的效用,并表明最优词汇量超参数选择能提升ASR的性能。本文的主要贡献在于形式化了一种确定最适合训练端到端ASR系统的词汇量的方法。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:22

# 基于微积分的端到端ASR词汇量确定框架
来源:https://arxiv.org/html/2605.14427

###### 摘要

在混合自动语音识别(ASR)系统中,词汇量是明确的,通常由语言中的音素、双音素或三音素数量决定。相比之下,端到端ASR系统从其用于训练的文语料库中推导出词汇量(通常称为词块)。词汇量的选择,尤其是其大小,是训练端到端ASR系统时的一个关键超参数。字节对编码(BPE)、WordPiece和Unigram语言模型(ULM)等分词算法将词汇量作为输入超参数,以生成用于ASR训练的子词。像ESPNet这样的流行工具包在其训练配置中提供了固定的词汇量,但文献中关于这些值如何确定的讨论或记录很少。最近的研究\[4 (https://arxiv.org/html/2605.14427#bib.bib39)\]已经形式化了一种方法来确定最适合端到端ASR的词汇量,引入了一个将分词过程视为黑盒的代价函数框架。在本文中,我们以此为基础,通过对训练数据进行曲线拟合,并利用微积分中的一阶和二阶导数检验原理,正式估计词汇量超参数。我们通过将方法应用于标准的LibriSpeech语料库,证明了该方法的实用性和有效性,并展示了词汇量超参数的最优选择能提升ASR的性能。本文的主要贡献在于形式化了一种方法,用于确定最适合训练端到端ASR系统的词汇量。

## I. 引言

端到端自动语音识别(ASR)系统通过将声学特征序列直接映射到离散的子词或字符序列,已成为语音转文本建模的主流范式。虽然这种方法消除了显式的音素和词典建模,但它引入了多个表示级别的设计选择,这些选择会显著影响模型性能。其中一个选择是子词分词中使用的词汇量,它决定了训练和解码过程中所使用的离散输出空间的分辨率。

与混合ASR系统(其中词汇量由语言的音素清单隐式固定)不同,端到端ASR系统依赖于数据驱动的分词算法,如字节对编码(BPE)、WordPiece和Unigram语言模型。这些分词方法需要预先指定词汇量。流行的ASR工具包,包括ESPNet,通常为此参数采用固定的启发式值;然而,这些选择背后的原理往往缺乏文档说明,语料库统计量与最优词汇量之间的关系仍然不甚明了。

最近的研究\[4 (https://arxiv.org/html/2605.14427#bib.bib39)\]通过引入一个代价最小化框架解决了这个问题,该框架在将分词器视为黑盒的同时,利用语料库派生统计量来建模词汇量的影响。尽管有效,但所提出的方法依赖于对候选词汇量进行经验网格搜索,并未明确刻画所得代价函数的解析结构。

在本文中,我们通过开发一个基于微积分的框架来扩展这一研究方向,用于估计端到端ASR系统中的词汇量。我们将词汇量视为一个**表示分辨率参数**,类似于向量量化中的字典大小或统计信号处理中的模型阶数。通过将依赖于语料库的代价分量显式建模为词汇量的光滑可微函数,我们推导出一阶和二阶最优性条件,从而能够在无需详尽实验的情况下,基于原则性地估计最优词汇量。

具体来说,我们引入了基于语料库统计量的代价分量归一化,以确保数值稳定性以及跨数据集的可解释性。我们进一步采用改进的曲线拟合技术,利用二阶多项式和多项式-指数模型来捕捉词块不平衡性与序列长度增长作为词汇量函数的观测行为。由此产生的公式允许通过求解一个受约束的驻点问题来获得最优词汇量,从而提供关于语料库特性如何支配分词器设计的解析见解。

在使用最先进的基于Conformer的ASR模型对LibriSpeech-100语料库进行的实验验证表明,由所提出框架估计的词汇量在词错误率方面与常用的启发式选择相比具有竞争力或更优。这些结果凸显了在端到端ASR系统中进行基于分析的表示设计的实用性。本文的主要贡献总结如下:

- • 通过将语料库派生的代价分量建模为词汇量的可微函数,我们将端到端ASR中的词汇量选择问题形式化为一个连续优化问题。
- • 我们推导出一阶和二阶最优性条件,这些条件刻画了最优词汇量的存在性,从而能够在无需详尽网格搜索的情况下进行解析或数值估计。
- • 我们引入了基于语料库统计量的代价分量归一化,从而实现稳定的优化以及跨数据集对代价权重的有意义的解释。
- • 我们在LibriSpeech-100语料库上,使用基于Conformer的ASR系统对所提出的框架进行了实证验证,并展示了与广泛采用的启发式词汇量相比具有竞争力或更优的词错误率。

本文的其余部分组织如下。第二部分 (https://arxiv.org/html/2605.14427#S2) 介绍扩展的问题公式和解析框架。第三部分 (https://arxiv.org/html/2605.14427#S3) 给出实验设置,并在标准ASR基准上评估所提出的方法。第四部分 (https://arxiv.org/html/2605.14427#S4) 总结全文,并讨论局限性和未来方向。

## II. 问题设置

我们采用文献\[4 (https://arxiv.org/html/2605.14427#bib.bib39)\]中的问题公式和符号,其中词汇量通过最小化一个同时考虑 (i) 词块数量、(ii) 类别不平衡和 (iii) 计算成本的代价函数来确定。具体而言,代价函数包含三项:词汇量 \(n\)、频繁词块与低频词块出现次数的比值 \(\Delta(n)\),以及覆盖整个语料库所需的总词块数 \(\Theta(n)\)。为完整起见,我们从文献\[4 (https://arxiv.org/html/2605.14427#bib.bib39)\]复述代价函数 \(\mathcal{C}(n)\) 如下:

\[
\mathcal{C}(n) = \left\{ \alpha_1 \overbrace{n}^{t_1} + \alpha_2 \overbrace{\Delta(n)}^{t_2} + \alpha_3 \overbrace{\Theta(n)}^{t_3} \right\}
\quad(1)
\]
其中 \(\alpha_1, \alpha_2, \alpha_3\) 表示与各自分量 \(t_1, t_2, t_3\) 相关的权重。最优词汇量对应于

\[
n^* = \arg \min_n \left\{ \mathcal{C}(n) \right\}
\quad(2)
\]

在本文中,我们通过归一化代价分量来扩展该公式,以确保稳定性和跨语料库的可比性。代价项使用二阶多项式和多项式-指数形式进行建模,以准确捕捉其经验行为。通过求解一阶和二阶最优性条件,解析地获得最优词汇量。这为估计端到端ASR系统中的词汇量超参数提供了一种基于原则的机制,这也是本文的主要贡献。

### II-A. 寻找最优词块数量 \(n\)

我们首先计算 \(\mathcal{C}(n)\) 相对于 \(n\) 的一阶导数:

\[
\frac{d\mathcal{C}(n)}{dn} = \alpha_1 + \alpha_2 \Delta'(n) + \alpha_3 \Theta'(n),
\quad(3)
\]
并令其为零,得到

\[
\alpha_1 + \alpha_2 \Delta'(n) + \alpha_3 \Theta'(n) = 0.
\quad(4)
\]
我们假设一阶导数 \(\Delta'(n)\) 和 \(\Theta'(n)\) 存在。求解 (4) 得到 \(n\) 的一个候选解,其值取决于权重系数 \(\alpha_1, \alpha_2, \alpha_3\)。

为验证该解对应一个最小值,我们计算二阶导数

\[
\frac{d^2\mathcal{C}(n)}{dn^2} = \alpha_2 \Delta''(n) + \alpha_3 \Theta''(n),
\quad(5)
\]
假设 \(\Delta''(n)\) 和 \(\Theta''(n)\) 存在。如果 (5) 严格为正,则从 (4) 得到的解 \(n\) 使 \(\mathcal{C}(n)\) 最小化。

### II-B. 基于多项式的函数建模

函数 \(\Delta(n)\) 和 \(\Theta(n)\) 分别使用 (i) 二阶多项式和 (ii) 二阶多项式加上指数项进行建模。这种选择确保了一阶和二阶导数的存在,同时提供了足够的灵活性来捕捉经验趋势。

#### II-B1. 二阶多项式拟合

我们首先使用二阶多项式对 \(\Delta(n)\) 和 \(\Theta(n)\) 进行建模:

\[
\Delta(n) \triangleq d_2 n^2 + d_1 n + d_0,
\quad(6)
\]
\[
\Theta(n) \triangleq f_2 n^2 + f_1 n + f_0.
\quad(7)
\]

相应的一阶和二阶导数直接得出:

\[
\Delta'(n) = 2d_2 n + d_1, \quad \Theta'(n) = 2f_2 n + f_1,
\quad(8)
\]
\[
\Delta''(n) = 2d_2, \quad \Theta''(n) = 2f_2.
\quad(9)
\]

将这些代入 (4) 得到

\[
n = \frac{-(\alpha_1 + \alpha_2 d_1 + \alpha_3 f_1)}{2(\alpha_2 d_2 + \alpha_3 f_2)}.
\quad(10)
\]

该解对应一个最小值当且仅当 \(\frac{d^2\mathcal{C}}{dn^2} > 0\),即

\[
2(\alpha_2 d_2 + \alpha_3 f_2) > 0,
\quad(11)
\]
并且 \(n\) 为正(假设 (10) 中的分子为负)

\[
\alpha_1 + \alpha_2 d_1 + \alpha_3 f_1 < 0.
\quad(12)
\]

注意 \(n\) 依赖于 \(\alpha_1, \alpha_2, \alpha_3\) 的值,这些值需要启发式地选择。

#### II-B2. 多项式-指数模型

经验观测结果(参见第三部分-A节 (https://arxiv.org/html/2605.14427#S3.SS1))表明,纯二阶多项式不足以很好地建模 \(\Delta(n)\) 和 \(\Theta(n)\) 的行为,两者都表现出指数型趋势。为解决此问题,我们在多项式模型中增加一个指数项:

\[
\Delta_{\mathrm{exp}}(n) \triangleq g_3 n^2 + g_2 n + g_1 e^{1/n} + g_0,
\quad(13)
\]
\[
\Theta_{\mathrm{exp}}(n) \triangleq h_3 n^2 + h_2 n + h_1 e^{1/n} + h_0.
\quad(14)
\]

在约束条件

\[
\frac{d^2\mathcal{C}(n)}{dn^2}
= \alpha_2\!\left(2g_3 + 3g_1\frac{e^{1/n}}{n^4}\right)
+ \alpha_3\!\left(2h_3 + 3h_1\frac{e^{1/n}}{n^4}\right) > 0
\quad(15)
\]

下,求解所得的非线性方程(数值方法,参见附录A (https://arxiv.org/html/2605.14427#A1))得到最优词汇量。

## III. 实验分析

为按照前一节描述的方法估计最优词汇量 \(n\),我们首先对 \(\Delta(n)\) 和 \(\Theta(n)\) 进行建模,并选择权重系数 \(\alpha_1, \alpha_2, \alpha_3\) 来构建 (1) 中的代价函数。所有实验均在 LibriSpeech-100 语料库\[8 (https://arxiv.org/html/2605.14427#bib.bib23)\]上进行。LibriSpeech-100 包含 100 小时的英语朗读语音及相应的文本转录。训练集包含 \(k = 28,538\) 个句子,包含 \(w = 990,093\) 个词条,其中 \(w_u = 33,798\) 个是唯一的。该语料库总共包含 \(c = 5,298,301\) 个字符,其中 \(c_u = 28\) 个唯一字符。

选择 LibriSpeech-100 数据集有两个原因:(i) 它是最广泛使用的用于训练低资源端到端 ASR 系统的基准之一,(ii) 它由 ESPNet 工具包中一个成熟的训练配置支持,我们在实验中使用了该配置。

我们使用 LibriSpeech-100 语料库,针对 \(n\) 在 \(c_u \leq n \leq 5000\) 范围内的值计算 \(\Delta(n)\) 和 \(\Theta(n)\)。图 1(a) (https://arxiv.org/html/2605.14427#S3.F1.sf1) 展示了 \(\Delta(n)\) 的行为,而图 1(b) (https://arxiv.org/html/2605.14427#S3.F1.sf2) 显示了相应的 \(\Theta(n)\) 曲线,两者均直接来自语料库统计量。

### III-A. 二阶多项式拟合

我们现在使用 SciPy 库中 `scipy.optimize` 模块的 `curve_fit` 函数拟合一个二阶多项式(如第二部分-B1节所述)。\(\Delta(n)\) 的估计系数为 \(d_2 = 6.89 \times 10^{-5}\), \(d_1 = 0.24\), \(d_0 = 21.23\),\(R^2\) 值为 1.00。类似地,对于 \(\Theta(n)\),我们得到 \(f_2 = 0.101\), \(f_1 = -716.87\), \(f_0 = 2.47 \times 10^6\),\(R^2\) 值为 0.73。拟合模型为:

\[
\begin{aligned}
\Delta(n) &= 6.89 \times 10^{-5} n^2 + 0.24 n + 21.23 \\
\Theta(n) &= 0.101 n^2 - 716.87 n + 2.47 \times 10^6
\end{aligned}
\quad(16)
\]

\(R^2\) 指标(决定系数)表示拟合优度,值越接近 1 表示拟合越好\[5 (https://arxiv.org/html/2605.14427#bib.bib26)\]。拟合的 \(\Delta(n)\) 和 \(\Theta(n)\) 曲线分别如图 1(a) (https://arxiv.org/html/2605.14427#S3.F1.sf1) 和 1(b) (https://arxiv.org/html/2605.14427#S3.F1.sf2) 中的红色曲线所示,而源自 LibriSpeech-100 语料库的经验曲线则以蓝色显示。如前所述,二阶多项式拟合无法准确捕捉 \(n > 2500\) 时的 \(\Delta(n)\),同样也无法很好地建模 \(n < 2500\) 时的 \(\Theta(n)\)。

![参考标题](未提供图) (a) \(\Delta(n)\).
![参考标题](未提供图) (b) \(\Theta(n)\).

图 1: (a) \(\Delta(n)\) 和 (b) \(\Theta(n)\) 的二阶多项式拟合 (公式 (16))。拟合曲线以红色显示,源自 LibriSpeech-100 语料库的经验曲线以蓝色显示。

利用公式 (10),\(n\) 的最小化值为:

\[
n = \frac{716.87\alpha_3 - \alpha_1 - 0.24\alpha_2}{2(6.89 \times 10^{-5}\alpha_2 + 0.101\alpha_3)}
\]

相似文章

神经语言模型的缩放规律

OpenAI Blog

基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。

转录儿童语音:ASR性能与获取可靠的正字法转写

arXiv cs.CL

这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。

语音识别中的Convex低资源口音鲁棒语言检测

Hugging Face Daily Papers

本文介绍了CLD,一种基于凸优化的轻量级语言检测头(用于ASR),在不到100个训练样本下实现97-98%的准确率,同时将计算成本降低13倍,解决了5种语言和24种子方言的口音和方言鲁棒性问题。