@Chenyang_Lyu:隆重开源LongSpeech,将亮相#ICASSP2026!多数音频大模型聚焦短音频,却难啃长音频……

X AI KOLs Following 论文

摘要

研究团队发布LongSpeech:含10万条约10分钟片段的数据集,覆盖8项任务,用于评测长音频理解能力,将在ICASSP 2026亮相。

隆重开源LongSpeech,将亮相#ICASSP2026!当前多数音频大模型只擅长短音频,对长录音束手无策。我们的新数据集包含10万+段、每段约10分钟,覆盖8项任务,专为评测长音频理解而生。
查看原文

相似文章

面向IWSLT 2026指令跟随的FBK长时SpeechLLMs

arXiv cs.CL

本文介绍了FBK在IWSLT 2026指令跟随共享任务中的提交,开发了用于短时和长时语音指令跟随的SpeechLLMs,探索了分割方法,并通过固定30秒分割实现了稳健的长时性能。

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers

Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。

SpeechDx:临床语音AI的多任务基准

arXiv cs.AI

SpeechDx 是一个大规模临床语音AI基准,涵盖12个数据集和27个任务,覆盖多种健康状况,并按语音生成阶段进行结构化。它评估了12种最先进的音频编码器,结果表明当前模型在临床语音领域无法可靠地泛化。

MultiLinguahah:一种新的无监督多语言声学笑声分割方法

arXiv cs.CL

本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。

@wsl8297: GitHub 上有一份把「语音语言模型(SpeechLM)」研究脉络梳理得很清楚的资源库:Awesome-SpeechLM-Survey。 它把分类框架、代表模型、训练数据集到评测基准一站式整理成“知识地图”,查资料、补背景、找对标都很省…

X AI KOLs Timeline

GitHub 上的 Awesome-SpeechLM-Survey 仓库系统整理了语音语言模型的研究脉络,包括分类框架、代表模型、训练数据集和评测基准,是了解该领域的知识地图。