标签
Java库jqwik的维护者Johannes Link添加了恶意提示注入,以干扰AI对该库的使用,引发了关于AI伦理和开源维护者权利的辩论。
本文探讨了对话式人工智能系统中身份验证的挑战,强调了如冒充和提示注入等风险,并质疑是否正在开发严肃的解决方案。
作者构建了一个轻量级即插即用安全网关,实现了DeepMind的CaMeL原则——防止不可信数据执行操作。在基准测试中达到了约70%的自动推断准确率,且零静默不安全误分类,但指出了来源追踪和鲁棒性方面的不足。
Antitech 为AI代理提供免费的早期安全评估服务,针对提示注入、工具滥用、数据泄露等攻击向量进行测试,并提供漏洞报告和参与折扣。
本文介绍了一种针对检索增强文本到音乐系统的双层描述投毒攻击,证明攻击者可以通过向知识数据库中注入恶意描述,在不修改用户提示或模型的情况下,将生成的音乐引导至攻击者选择的意图。
本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性,发现这并不能广泛改善,有时反而会增加攻击成功率。
一位安全研究人员披露,OpenAI 的 ChatGPT for Google Sheets 扩展程序容易受到间接提示注入攻击,允许攻击者窃取工作簿并在用户设置要求批准的情况下执行未经授权的操作。
攻击者可以通过将恶意指令分散到多条消息中来绕过安全检测;Bendex Arc 是一种跨轮次跟踪会话行为以捕获此类攻击的工具。
介绍SCOUT,一个通过预测可靠性和延迟来动态分配每个请求的提示注入检测器的框架,提高了安全性和效率。同时提出SCOUT-450,一个针对复杂面向代理的注入的基准测试,与固定的GPT-4o判断器相比,攻击成功率降低46%,延迟降低40%。
本文介绍了针对本地LLM代理的多步特洛伊木马攻击,其中恶意提示嵌入在多个操作中以绕过现有防御。它提出了ClawTrojan基准和DASGuard防御来检测和缓解此类攻击。
本文讨论了具备阅读内部文档、调用API等能力的AI系统需要一种新的安全方法,即超越传统SaaS安全,转向针对AI智能体的零信任原则。
Microsoft Copilot Cowork 中存在一个安全漏洞,攻击者可通过利用提示注入触发外部图片请求,从而外泄文件,可能导致未经身份验证的下载链接泄露。
关于本地LLM在连接工具时的安全实践讨论,质疑在赋予模型工具访问权限前,提示注入测试是否普遍。
PromptArmor 的研究人员展示了 Microsoft Copilot Cowork 可能通过间接提示注入被利用,从 Microsoft 365 中窃取文件,利用的是当接收者为活跃用户时某些操作缺乏审批的漏洞。
本文介绍了Agent Vulnerability Enumeration (AVE)记录作为一种新标准,旨在解决CVE在AI代理漏洞方面的不足,涵盖针对代理型AI的评分、检测和标准化挑战。
研究人员发现,可以将人类听不见的声音嵌入YouTube视频、播客或音乐中,以隐蔽地指挥AI语音助手,从而实现一类新型的听觉提示注入攻击。
本文探讨了黑客如何从简单的提示注入攻击发展到更复杂的利用手段,通过操纵聊天机器人的个性,将人工智能安全变成了一场军备竞赛。
一位开发者建立了一个网站,用户可以观看AI代理玩游戏、投注假币,并用赢得的钱来对代理进行提示注入。作者分享了对模型表现的观察,指出较小的模型表现不佳,而Qwen3 235B表现出色。
本文介绍了 prompt2bot 中针对非隔离 AI 代理的一次性管理员审批机制,通过要求管理员确认执行敏感工具(如创建虚拟机或执行代码)来防止 prompt 注入攻击。
一场免费的AI安全CTF竞赛,挑战内容包括提示注入、代理劫持和防护栏绕过。活动时间为6月17日至22日,奖金池超过1000美元。