ChildVox:理解与表征儿童声音的语音、音频及大型音频语言模型基准
摘要
ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。
查看缓存全文
缓存时间: 2026/05/29 07:00
论文页面 - ChildVox:一个面向童年期声音理解与描述的语言、音频及大规模音频-语言模型基准
来源:https://huggingface.co/papers/2605.29257 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
ChildVox 提出了一个综合性基准,用于利用多种音频和语音模型分析儿童在不同发育阶段的声学沟通行为。
我们提出了 ChildVox,这是一个新颖的基准,旨在描述儿童通过多样化声学信号进行沟通的特点。具体而言,ChildVox 涵盖了从出生到学龄期的完整发育轨迹,涉及生理声音、非语言发声、标准音节以及口语语言。ChildVox 整合了来自 17 个以儿童为中心的音频和语音数据集的 20 多个子任务,支持系统性的跨语料库和跨领域比较。我们评估了一系列具有代表性的音频和语音基础模型(https://huggingface.co/papers?q=audio%20and%20speech%20foundation%20models),包括自监督模型、面向 ASR 的模型以及大规模音频-语言模型(https://huggingface.co/papers?q=large%20audio-language%20models),任务涵盖生理声音分类(https://huggingface.co/papers?q=physiological%20sound%20classification)、发声与标准音节建模(https://huggingface.co/papers?q=canonical%20syllables%20modeling),以及语音质量评估(https://huggingface.co/papers?q=speech%20quality%20assessment)和识别。基准测试结果表明,ChildVox 提供了一套高性能模型,能够识别儿童发出的各种声学信号,支持下游应用,如描述儿童语言水平及追踪随年龄增长的语音产出。
查看 arXiv 页面(https://arxiv.org/abs/2605.29257)查看 PDF(https://arxiv.org/pdf/2605.29257)项目页面(https://tiantiaf0627.github.io/childvox/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29257)
引用本文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。
引用本文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。
引用本文的 Space0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.29257 以从此页面链接。
包含本文的收藏集1
相似文章
OpenBMB/VoxCPM
OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。
openbmb/VoxCPM2
VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。
大型基础模型中的视听智能
本综述论文全面回顾了大型基础模型中的视听智能,建立了统一的分类体系,综合了核心方法论,并概述了关键数据集、基准和开放性研究挑战。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。