@Chenyang_Lyu:隆重开源LongSpeech,将亮相#ICASSP2026!多数音频大模型聚焦短音频,却难啃长音频……

X AI KOLs Following 论文

摘要

研究团队发布LongSpeech:含10万条约10分钟片段的数据集,覆盖8项任务,用于评测长音频理解能力,将在ICASSP 2026亮相。

隆重开源LongSpeech,将亮相#ICASSP2026!当前多数音频大模型只擅长短音频,对长录音束手无策。我们的新数据集包含10万+段、每段约10分钟,覆盖8项任务,专为评测长音频理解而生。
查看原文

相似文章

MultiLinguahah:一种新的无监督多语言声学笑声分割方法

arXiv cs.CL

本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。