@Chenyang_Lyu：隆重开源LongSpeech，将亮相#ICASSP2026！多数音频大模型聚焦短音频，却难啃长音频……

X AI KOLs Following 2026/04/21 11:58 论文

audio-llm long-speech dataset icassp2026 benchmark

摘要

研究团队发布LongSpeech：含10万条约10分钟片段的数据集，覆盖8项任务，用于评测长音频理解能力，将在ICASSP 2026亮相。

隆重开源LongSpeech，将亮相#ICASSP2026！当前多数音频大模型只擅长短音频，对长录音束手无策。我们的新数据集包含10万+段、每段约10分钟，覆盖8项任务，专为评测长音频理解而生。

查看原文

相似文章

arXiv cs.CL

本文介绍了FBK在IWSLT 2026指令跟随共享任务中的提交，开发了用于短时和长时语音指令跟随的SpeechLLMs，探索了分割方法，并通过固定30秒分割实现了稳健的长时性能。

Hugging Face Daily Papers

Swanbench-Speech是一个综合基准评测，用于在多样化场景下评估长篇语音生成，采用涵盖声学、语义和表现力的多维度指标，揭示了当前模型的局限性。

arXiv cs.AI

SpeechDx 是一个大规模临床语音AI基准，涵盖12个数据集和27个任务，覆盖多种健康状况，并按语音生成阶段进行结构化。它评估了12种最先进的音频编码器，结果表明当前模型在临床语音领域无法可靠地泛化。

arXiv cs.CL

本文介绍了 MultiLinguahah，这是一种基于 BYOL-A 编码器表示并使用隔离森林（Isolation Forests）进行无监督多语言声学笑声分割的方法。作者证明，通过将笑声检测视为异常检测任务，该方法在非英语环境下的表现优于最先进（SOTA）的监督方法。

X AI KOLs Timeline

GitHub 上的 Awesome-SpeechLM-Survey 仓库系统整理了语音语言模型的研究脉络，包括分类框架、代表模型、训练数据集和评测基准，是了解该领域的知识地图。