ChildVox:理解与表征儿童声音的语音、音频及大型音频语言模型基准

Hugging Face Daily Papers 论文

摘要

ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。

我们提出了 ChildVox,这是一个新颖的基准,用于表征儿童传达信息的多样声学信号。具体来说,ChildVox 追踪从出生到学龄的完整发育轨迹,涵盖生理声音、非语言发声、典型音节和口语。ChildVox 整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务,实现了跨语料库和跨领域的系统比较。我们评估了一系列代表性的音频和语音基础模型,包括自监督、自动语音识别导向和大型音频语言模型,任务涵盖生理声音分类、发声与典型音节建模、语音质量评估与识别。基准结果表明,ChildVox 提供了一套高性能模型,能够识别儿童的各种声学信号,支持下游应用,如表征儿童语言水平和追踪随年龄增长的语言产出。
查看原文
查看缓存全文

缓存时间: 2026/05/29 07:00

论文页面 - ChildVox:一个面向童年期声音理解与描述的语言、音频及大规模音频-语言模型基准

来源:https://huggingface.co/papers/2605.29257 作者:

摘要

ChildVox 提出了一个综合性基准,用于利用多种音频和语音模型分析儿童在不同发育阶段的声学沟通行为。

我们提出了 ChildVox,这是一个新颖的基准,旨在描述儿童通过多样化声学信号进行沟通的特点。具体而言,ChildVox 涵盖了从出生到学龄期的完整发育轨迹,涉及生理声音、非语言发声、标准音节以及口语语言。ChildVox 整合了来自 17 个以儿童为中心的音频和语音数据集的 20 多个子任务,支持系统性的跨语料库和跨领域比较。我们评估了一系列具有代表性的音频和语音基础模型(https://huggingface.co/papers?q=audio%20and%20speech%20foundation%20models),包括自监督模型、面向 ASR 的模型以及大规模音频-语言模型(https://huggingface.co/papers?q=large%20audio-language%20models),任务涵盖生理声音分类(https://huggingface.co/papers?q=physiological%20sound%20classification)、发声与标准音节建模(https://huggingface.co/papers?q=canonical%20syllables%20modeling),以及语音质量评估(https://huggingface.co/papers?q=speech%20quality%20assessment)和识别。基准测试结果表明,ChildVox 提供了一套高性能模型,能够识别儿童发出的各种声学信号,支持下游应用,如描述儿童语言水平及追踪随年龄增长的语音产出。

查看 arXiv 页面(https://arxiv.org/abs/2605.29257)查看 PDF(https://arxiv.org/pdf/2605.29257)项目页面(https://tiantiaf0627.github.io/childvox/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29257)

引用本文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。

引用本文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。

引用本文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。

包含本文的收藏集1

相似文章

OpenBMB/VoxCPM

GitHub Trending (daily)

OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。

openbmb/VoxCPM2

Hugging Face Models Trending

VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。

大型基础模型中的视听智能

Hugging Face Daily Papers

本综述论文全面回顾了大型基础模型中的视听智能,建立了统一的分类体系,综合了核心方法论,并概述了关键数据集、基准和开放性研究挑战。