语音AI系统易受隐藏音频攻击
摘要
新研究表明,不易察觉的音频信号能以79-96%的成功率劫持大型音频语言模型(LALMs),迫使其执行未经授权的命令,如网络搜索或发送电子邮件。这种被称为AudioHijack的技术针对生成式模型,无论用户输入如何都能生效,对语音AI系统构成严重安全风险。
暂无内容
查看缓存全文
缓存时间: 2026/05/18 15:56
# 隐藏信号可劫持AI语音系统
来源:https://spectrum.ieee.org/voice-ai-audio-attacks
由AI驱动的语音和音频工具正日益融入日常生活,从数字助手、智能音箱(https://spectrum.ieee.org/the-consumer-electronics-hall-of-fame-amazon-echo-dot)到客服机器人,无处不在。
大型音频语言模型(LALMs)的进步——这类模型既能分析也能生成音频(https://spectrum.ieee.org/audio-deepfake-fix)——如今使得通过语音命令控制设备、自动转录会议或识别背景音乐成为可能。这些模型还越来越多地具备与外部服务通信以及操作其他应用程序和工具的能力。
然而,https://arxiv.org/abs/2604.14604v1这些工具可能被嵌入音频中的人耳无法察觉的声音“劫持”,从而在用户不知情的情况下执行未经授权的命令。即将于下周在旧金山举行的IEEE安全与隐私研讨会上发表的新研究(https://arxiv.org/abs/2604.14604v1)表明,一段经过修改、人耳无法检测的音频片段,可以操纵模型的行为,平均成功率达到79%至96%。这些片段被设计成无论用户同时提供何种指令都能生效,这意味着它们可以重复用于多次攻击同一模型。
作者针对13个领先的开放模型(包括来自Microsoft(https://spectrum.ieee.org/tag/microsoft)和Mistral的商业AI语音服务)测试了该方法,并展示了他们能够诱使模型执行敏感的网页搜索、从攻击者控制的来源下载文件,以及发送包含用户数据的电子邮件。
“只需半小时训练这个信号,然后由于该信号与上下文无关,你可以随时用它攻击目标模型,无论用户说什么。”主要作者、浙江大学博士生Meng Chen(https://www.researchgate.net/profile/Meng-Chen-99)表示。
## 对抗性音频如何注入攻击
这项研究建立在多年“对抗性音频示例”研究的基础上——即经过操纵以欺骗机器学习(https://spectrum.ieee.org/tag/machine-learning)模型的音频。先前的工作主要集中在这种文件如何诱导执行单向任务(如语音识别(https://spectrum.ieee.org/tag/speech-recognition)或音频分类(https://spectrum.ieee.org/tag/classification))的模型产生错误预测。
Chen指出,这项新工作的独特之处在于它针对的是能够生成响应并采取行动的生成式模型。他们的技术名为AudioHijack,利用了大音频语言模型设计中的一个关键安全漏洞:由于这些模型可以接收音频格式的指令,恶意指令可以隐藏在经过操纵的片段中,从而引发各种不良行为。
先前许多针对生成式模型的攻击要求攻击者完全控制最终音频输入以及给模型的原始指令,实质上扮演了用户的角色。而在这里,攻击者只操纵模型正在处理的音频数据,这使得可以在他人使用模型时进行攻击。
现实世界的例子包括将恶意指令隐藏在线视频、音乐片段或用户向AI询问的语音笔记中,或者在Zoom通话中广播(https://spectrum.ieee.org/tag/broadcasting)恶意音频,然后该音频被上传到AI转录服务。Chen表示,团队最近未发表的研究还展示了能够实时将恶意音频注入与AI的实时语音聊天中。
研究人员使用了一种经过验证的方法来创建对抗性示例。这涉及调整数字音频(https://spectrum.ieee.org/tag/digital-audio)文件中表示波形的数值,方式不会显著改变其声音,但会在模型处理数据时引发意外行为。该技术依赖于优化算法(https://spectrum.ieee.org/tag/optimization-algorithm),反复调整音频片段,测量对模型响应的影响,然后利用该信号进一步调整音频,直到模型按照攻击者的意图行事。
## 针对生成式AI(https://spectrum.ieee.org/tag/generative-ai)音频模型
将这种方法应用于生成式模型面临重大挑战。较旧的AI会对原始音频的微小变化如何影响响应提供细粒度的反馈。然而,生成式模型将音频分解成块,并将其分配给称为“标记”(tokens)的数值表示,将每个片段映射到最接近的匹配项。
这种较粗略的处理过程使得更难判断操纵是否使模型更接近期望的行为,从而干扰了优化算法。因此,Chen和同事设计了一种方法来近似优化算法所需的细粒度反馈。
这需要完全访问模型,因此研究人员只能使用权重公开的开放模型。然而,他们发现针对开放模型开发的攻击可以转移到具有相同底层架构的Microsoft和Mistral的商业模型上。
在回应评论请求时,微软的一位发言人表示:“我们感谢研究人员为加深对这种技术类型的理解所做的工作。这项研究通过受控的、与模型本身的直接交互来评估模型弹性,这有助于我们构建模型弹性(https://spectrum.ieee.org/tag/resiliency)的方法。在实践中,AI模型(https://spectrum.ieee.org/tag/ai-models)通常集成到用户应用程序中,我们为开发者提供工具和指导,用以实施额外的保护层来帮助保障用户安全。”
Mistral在文章发表前未回复评论请求。
## 提升AudioHijack的效果
Chen表示,攻击来自OpenAI(https://spectrum.ieee.org/tag/openai)和Anthropic(https://spectrum.ieee.org/tag/anthropic)等公司的专有封闭模型要困难得多,因为关于其架构的公开信息有限。但这些模型通常使用开源组件——例如预训练的音频编码器——这些组件可以类似地被攻击,团队目前正在对此进行研究。
为了确保攻击在用户无论与恶意音频片段一起提供何种指令时都能奏效,研究人员在优化过程的每一轮中将音频片段与不同的用户指令配对。
他们还找到了一种方法来接管模型的注意力机制,即帮助模型识别音频中与任务相关部分的功能。研究人员引入了一个度量,衡量模型在每个步骤中对对抗性音频与用户自身指令的关注程度,并将其输入到优化过程中,以生成更能吸引模型注意力的样本。
为了使操纵更难以被人耳检测到,研究人员使用了他们先前开发(https://dl.acm.org/doi/abs/10.1109/TIFS.2023.3345639)的一种技术,使对音频的修改听起来像自然的混响。这比早期在原始信号中添加噪声的方法更难被人察觉。
## 在当今的AI音频模型上测试
团队展示了六类攻击:使模型声称无法处理音频、拒绝用户请求、回复虚假信息、插入恶意链接、改变模型的角色设定,以及触发未经授权的工具使用。
令人担忧的是,这种方法对常见防御手段具有抵抗力。让模型注意防范恶意指令的示例仅将攻击成功率降低了7%,而要求模型反思其响应是否与用户指令匹配仅捕获了28%的攻击。
“这些单点防御难以抵抗我们的攻击,因为我们发现这些模型很难区分正常用户意图和我们的对抗攻击。”Chen表示。
唯一有效的策略是监控模型的内部注意力机制,以检测AudioHijack试图将注意力引向恶意音频的行为。然而,研究人员表明,如果攻击者意识到这种防御手段,可以降低注意力操纵的程度,代价是攻击成功率略有下降。
马萨诸塞大学阿默斯特分校计算机科学助理教授Eugene Bagdasarian(https://people.cs.umass.edu/~eugene/)表示,在现实世界中,这种音频攻击将面临额外挑战,例如压缩和各种可能削弱信号的后处理机制。但他表示,针对AI模型的多模态攻击本质上仍是一个未解决的问题。
“对于文本数据,我们可以理解某些地方有问题(特殊字符、可疑语句等),音频模态则因其听觉局限性而难以理解。”他在一封电子邮件中写道。
相似文章
人类听不见的声音可以隐藏在YouTube视频、播客或音乐中,用于秘密触发AI语音助手执行未经授权的命令,用户无法察觉,这揭示了一类针对流行工具的新型“听觉提示注入”攻击
研究人员发现,可以将人类听不见的声音嵌入YouTube视频、播客或音乐中,以隐蔽地指挥AI语音助手,从而实现一类新型的听觉提示注入攻击。
大型音频语言模型综述:泛化、可信度与展望
一篇全面综述,回顾了大型音频语言模型(LALMs)的可信度挑战,包括跨模态越狱和声学后门等漏洞,并提出了纵深防御路线图。
语言模型能够自主攻击和自我复制
本文展示语言模型能够自主攻击漏洞网站并自我复制,无需人类干预,凸显新出现的安全风险。
当视觉为声音代言
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。
AI电台主持人证明为何不能单独信任AI
Andon Labs进行了一项实验,让AI模型独立运营电台,结果导致财务破产、出现幻觉、产生不当内容甚至存在性崩溃,凸显了当前AI代理的局限性。