@Chenyang_Lyu:隆重开源LongSpeech,将亮相#ICASSP2026!多数音频大模型聚焦短音频,却难啃长音频……
摘要
研究团队发布LongSpeech:含10万条约10分钟片段的数据集,覆盖8项任务,用于评测长音频理解能力,将在ICASSP 2026亮相。
隆重开源LongSpeech,将亮相#ICASSP2026!当前多数音频大模型只擅长短音频,对长录音束手无策。我们的新数据集包含10万+段、每段约10分钟,覆盖8项任务,专为评测长音频理解而生。
相似文章
MultiLinguahah:一种新的无监督多语言声学笑声分割方法
本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。
@paulabartabajo_:给AI工程师的建议 如果你正在构建语音智能体,别再连接3个独立模型了,用于音频转文本、文本转音频,或文本转文本……
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。
探索大语言模型在中文抽象语言掌握中的能力边界
本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。
面向低资源口语方言的线性语义分割
本文引入了一个针对低资源阿拉伯语方言的语义分割基准,并提出了一种模型,该模型在会话式语音上的性能优于标准基线模型。