Speech Playground:语音分析与比对交互工具

arXiv cs.CL 工具

摘要

Speech Playground 是一款语音分析与比对的交互工具,结合 Python 后端与 Web 前端,支持多种特征类型探索以及话语对比,适用于语音研究和计算机辅助发音训练。

arXiv:2607.00418v1 公告类型:新论文 摘要:本文介绍了 Speech Playground,一款交互式语音可视化与比对工具。现有工具如 Praat 虽然功能出色,但在集成现代深度学习表示及用于比对时可能较为繁琐。Speech Playground 通过将 Python 后端与基于 Web 的前端相结合,支持交互式探索多种特征类型,包括连续、离散和变长表示。它集成了 TextGrid 和强制对齐支持,以及可配置的距离和对齐设置,用于视觉和听觉比对。Speech Playground 旨在用于语音研究、表示验证以及面向计算机辅助发音训练(CAPT)的实验。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:36

# Speech Playground:语音分析与对比的交互式工具
来源:https://arxiv.org/html/2607.00418
McIntosh Saito Minematsu

###### 摘要

本文介绍了 Speech Playground,一款交互式语音可视化与对比工具。现有工具如 Praat 虽然出色,但在与现代深度学习表示集成并用于对比时却显得繁琐。Speech Playground 通过将 Python 后端与基于 Web 的前端相结合来解决这一问题,支持对多种特征类型(包括连续、离散和变长表示)进行交互式探索。该工具支持 TextGrid 和强制对齐,并具有可配置的距离和对齐设置,便于进行视觉和听觉对比。Speech Playground 旨在用于语音研究、表示验证以及面向计算机辅助发音训练(CAPT)的实验。

###### 关键词:
语音分析,话语对比,CAPT

## 1 引言

像 Praat 这样的语音分析交互式工具在语音研究中被广泛使用,并且在 CAPT 场景中对于语音反馈也很有用。然而,近期基于深度学习的语音研究产生了许多不同的表示,例如自监督或发音特征。比较这些表示需要基于 Python 的编码器、对齐代码和临时的可视化脚本,这很繁琐。

本文介绍了 Speech Playground¹https://github.com/stephenmac7/speech-playground,一个可扩展的交互式工具,用于语音特征可视化和话语对比。Speech Playground 有两种模式:Analysis(分析)用于单轨可视化(图1 (https://arxiv.org/html/2607.00418#S2.F1)),以及 Diff(差异)用于话语对比(图2 (https://arxiv.org/html/2607.00418#S2.F2))。

Speech Playground 提供了一个统一的交互式环境,用户可以在同一话语对上比较不同的语音编码器、连续、离散和变长表示,以及不同的距离和对齐设置。我们设想了以下用例:(1)**语音研究**:使用其他工具无法获得的语音特征,并利用 Diff 模式解释语音相对于参考的变化;(2)**表示验证**:检查某个表示是否捕捉到特定的对比或与音频行为一致;(3)**面向 CAPT 的实验**:使用 Diff 模式展示模型语音与学习者语音在哪些方面以及如何不同。

## 2 概述

参见图注
图1:样本查看器,带有 TextGrid 标注和音韵向量层[choi2026bdt+p]。正向和负向激活分别以紫色和橙色阴影显示。

### 2.1 架构

Speech Playground 包含三个组件:

- **前端**是一个 SvelteKit 应用程序,提供两种主要模式:Analysis(分析),用于检查单个话语;Diff(差异),用于对齐和比较两个话语。WaveSurfer.js 用于波形可视化。IndexedDB 用于管理和持久化上传的录音及元数据,如转录文本和 TextGrid 文件。
- **后端**是一个 FastAPI(Python)服务器,公开语音处理端点,包括编码、分段和对齐,按需惰性加载模型以实现快速启动和迭代。
- **语音处理库**提供了一种统一的接口,用于特征提取器,称为编码器。每个编码器将波形映射到连续的帧级或段级表示序列。内置编码器包括 SSL、发音、音韵特征和分段表示,以及 SSL 衍生的变长表示,如 ZeroSyl[visser2026zerosyl]。表示可以可选地转换为离散单元或分组为更粗粒度的变长片段。

语音处理库还包含用于话语对比的函数(在 Diff 模式下使用)。这些函数计算话语之间的相似度矩阵,并执行离散或基于片段的对齐,生成包含插入、删除和替换的差异结果。用户可以在距离度量和对齐设置之间切换,包括全局和半全局匹配。对于固定速率表示,Speech Playground 默认使用通过 dtw-python²https://dynamictimewarping.github.io/python/ 实现的动态时间规整(DTW);变长分段表示和离散分词可以使用替代对齐方法进行比较。

参见图注
图2:Diff 模式下的完整用户界面。Query 中的顶层¹显示了与 Model 的帧级 DTW 距离(红色表示较高的距离)。Model 上显示的蓝色层²代表 TextGrid 层,可用于库中带有 TextGrid 文件(由绿色 TG 按钮指示)的样本。Query 上显示的绿色层³是使用可选的 MFA 服务进行的强制对齐。用户当前正在为最后一个“One wonders about its applicability to people”样本⁴录制新音频(录制进度显示在⁵)。

### 2.2 组件

图2显示了完整的用户界面。它由右上角的模式选择器、右侧侧边栏中的库以及左侧包含样本查看器和配置的主区域组成。

**库**管理录音和元数据(音轨),包括转录文本和 TextGrid 文件。选中的音轨在一个或多个**样本查看器**中可视化,这些查看器显示波形以及间隔层,如标注、编码器派生片段或音韵特征。对于带有转录文本的音轨,查看器还可以请求强制对齐³强制对齐需要额外的后端服务器:https://github.com/stephenmac7/mfa-service。样本查看器是交互式的:可以缩放和滚动,用户可以通过拖动波形或间隔来收听音频的片段。在 Diff 模式下,按住 Shift 键选择播放区域将在另一个音轨的样本查看器中播放对应的音频。

### 2.3 工作流程

参见图注
图3:Diff 模式下单个帧的发音反演特征[mcghee2025training]。样本播放时呈现动画效果。

选中的音轨会根据所选配置进行编码和比较(在 Diff 模式下),当任一设置发生变化时,用户可以在探索结果的同时交互式地切换编码器、离散化设置、距离度量和对齐模式。除了定位不匹配之处,对齐的音韵和发音视图可以帮助用户解释两个话语之间的差异。例如,图3显示了在单个帧上对齐的发音反演特征,允许直接检查两个话语之间的估计发音器差异。

## 3 结论

Speech Playground 是一款用于分析和比较语音的交互式工具。其可扩展的设计使得在单一界面内轻松比较不同的语音表示和处理策略,使其对语音研究、表示验证以及面向 CAPT 的实验非常有用。

## 4 生成式人工智能使用声明

使用了大型语言模型进行编码辅助和最终校对。

## 参考文献

相似文章

SpeechEditBench:面向指令引导语音编辑的双语多属性基准

Hugging Face Daily Papers

SpeechEditBench是一个双语多属性基准,用于评估指令引导的语音编辑,涵盖七项原子任务和组合任务,并采用基于锚点的评估方案及三项指标。对主流语音大模型的评估表明,没有单一模型能在所有维度上表现出色,而组合编辑仍然极具挑战性。

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers

Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。

OpenSTBench:超越语义评估的语音翻译

Hugging Face Daily Papers

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。