大型音频语言模型综述：泛化、可信度与展望

Hugging Face Daily Papers 2026/05/18 00:00 论文

large-audio-language-models trustworthiness survey security multimodal acoustic

摘要

一篇全面综述，回顾了大型音频语言模型（LALMs）的可信度挑战，包括跨模态越狱和声学后门等漏洞，并提出了纵深防御路线图。

大型语言模型（LLMs）确立的基础能力为多模态大型语言模型（MLLMs）铺平了道路，其中大型音频语言模型（LALMs）是实现通用听觉智能的关键。尽管其性能卓越，LALMs能力的提升速度已显著超过确保其可信度的系统性框架的发展。本综述深入调查了LALMs的内源机制，详述了促成涌现推理的架构创新和对齐算法。具体而言，我们分析了向统一端到端框架的转变以及连续声学信号的集成如何从本质上扩大了攻击面。为严格评估这些范式中的风险，我们建立了一个全面的可信度分类体系，归类了关键漏洞，如跨模态越狱、潜在声学后门和生物特征隐私泄露。我们通过六个分析支柱回顾了最新进展：幻觉、鲁棒性、安全性、隐私、公平性和身份验证。成熟的攻击格局与不发达防御之间的深刻失衡进一步验证了以音频为中心的智能面临的关键可信度差距和多维风险。最后，我们提出了一项战略路线图，倡导采用“纵深防御”架构、因果听觉世界建模和内在表示工程，以弥合经验性能与本质可信的音频智能之间的差距。我们的项目已上传至 GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs。

查看原文

查看缓存全文

缓存时间: 2026/05/21 10:10

论文页面 - 大型音频语言模型综述：泛化能力、可信度与展望

来源：https://huggingface.co/papers/2605.20266 作者：

（此处省略作者列表，应保持原文格式）

摘要

大型音频语言模型尽管性能不断提升，但仍面临显著的可信度挑战，需要建立全面的框架来应对安全漏洞和防御策略。

由大型语言模型（Large Language Models, LLMs）建立的基础能力为多模态大型语言模型（Multimodal Large Language Models, MLLMs）铺平了道路，而大型音频语言模型（Large Audio Language Models, LALMs）则是实现通用听觉智能的关键。尽管其性能卓越，但LALMs能力的提升速度已显著快于确保其可信度的系统性框架的发展。本综述对LALMs的内在机制进行了全面研究，详细阐述了促进涌现推理的架构创新和对齐算法。具体而言，我们分析了向统一端到端框架（end-to-end frameworks）的转变以及连续声学信号（acoustic signals）的整合如何从本质上扩大了攻击面（attack surface）。为了严格评估这些范式中的风险，我们建立了一个全面的可信度分类体系，将关键漏洞分类，例如跨模态越狱（cross-modal jailbreaking）、潜在声学后门（acoustic backdoors）和生物特征隐私泄露（biometric privacy leakage）。我们通过六大分析支柱综述了最新技术：幻觉（hallucination）、鲁棒性（robustness）、安全性（safety）、隐私（privacy）、公平性（fairness）和认证（authentication）。成熟的攻击手段与不成熟的防御之间存在的深刻失衡，进一步验证了以音频为中心的智能所面临的关键可信度差距和多维风险。最后，我们提出了一项战略路线图，倡导采用“纵深防御”（Defense-in-Depth）架构、因果听觉世界建模（causal auditory world modeling）和内在表示工程（intrinsic representation engineering），以弥合经验性能与内在可信音频智能之间的鸿沟。我们的项目已上传至 GitHub：https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20266) 查看 PDF (https://arxiv.org/pdf/2605.20266) GitHub (https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20266)

在您的代理中获取此论文：

hf papers read 2605.20266

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.20266 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.20266 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.20266 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

大型音频语言模型综述：泛化、可信度与展望

论文页面 - 大型音频语言模型综述：泛化能力、可信度与展望

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

语音AI系统易受隐藏音频攻击

大型语言模型（LLM）与生成式人工智能在网络安全与隐私中的应用：双重用途风险、AI生成恶意软件、可解释性及防御策略综述

大语言模型可信性无训练方法的系统研究

TrustLDM：语言扩散模型可信度基准测试

多语言语言模型中有毒内容检测与缓解策略综述

提交意见反馈