ChildVox：理解与表征儿童声音的语音、音频及大型音频语言模型基准

Hugging Face Daily Papers 2026/05/28 00:00 论文

speech audio benchmark childhood developmental large-audio-language-model self-supervised

摘要

ChildVox 提出了一个全面的基准，用于分析儿童在不同发育阶段的声学交流，整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。

我们提出了 ChildVox，这是一个新颖的基准，用于表征儿童传达信息的多样声学信号。具体来说，ChildVox 追踪从出生到学龄的完整发育轨迹，涵盖生理声音、非语言发声、典型音节和口语。ChildVox 整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务，实现了跨语料库和跨领域的系统比较。我们评估了一系列代表性的音频和语音基础模型，包括自监督、自动语音识别导向和大型音频语言模型，任务涵盖生理声音分类、发声与典型音节建模、语音质量评估与识别。基准结果表明，ChildVox 提供了一套高性能模型，能够识别儿童的各种声学信号，支持下游应用，如表征儿童语言水平和追踪随年龄增长的语言产出。

查看原文

查看缓存全文

缓存时间: 2026/05/29 07:00

论文页面 - ChildVox：一个面向童年期声音理解与描述的语言、音频及大规模音频-语言模型基准

来源：https://huggingface.co/papers/2605.29257 作者：

，

摘要

ChildVox 提出了一个综合性基准，用于利用多种音频和语音模型分析儿童在不同发育阶段的声学沟通行为。

我们提出了 ChildVox，这是一个新颖的基准，旨在描述儿童通过多样化声学信号进行沟通的特点。具体而言，ChildVox 涵盖了从出生到学龄期的完整发育轨迹，涉及生理声音、非语言发声、标准音节以及口语语言。ChildVox 整合了来自 17 个以儿童为中心的音频和语音数据集的 20 多个子任务，支持系统性的跨语料库和跨领域比较。我们评估了一系列具有代表性的音频和语音基础模型（https://huggingface.co/papers?q=audio%20and%20speech%20foundation%20models），包括自监督模型、面向 ASR 的模型以及大规模音频-语言模型（https://huggingface.co/papers?q=large%20audio-language%20models），任务涵盖生理声音分类（https://huggingface.co/papers?q=physiological%20sound%20classification）、发声与标准音节建模（https://huggingface.co/papers?q=canonical%20syllables%20modeling），以及语音质量评估（https://huggingface.co/papers?q=speech%20quality%20assessment）和识别。基准测试结果表明，ChildVox 提供了一套高性能模型，能够识别儿童发出的各种声学信号，支持下游应用，如描述儿童语言水平及追踪随年龄增长的语音产出。

查看 arXiv 页面（https://arxiv.org/abs/2605.29257）查看 PDF（https://arxiv.org/pdf/2605.29257）项目页面（https://tiantiaf0627.github.io/childvox/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.29257）

引用本文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。

引用本文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。

引用本文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。

ChildVox：理解与表征儿童声音的语音、音频及大型音频语言模型基准

论文页面 - ChildVox：一个面向童年期声音理解与描述的语言、音频及大规模音频-语言模型基准

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

包含本文的收藏集1

相似文章

OpenBMB/VoxCPM

openbmb/VoxCPM2

本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

大型基础模型中的视听智能

KoALa-Bench：评估大型音频语言模型在韩语语音理解与忠实度上的表现

提交意见反馈