prompt-injection

#prompt-injection

反AI维护者Johannes Link向流行的Java库'jqwik'添加恶意提示注入

Reddit r/singularity ↗ · 2026-06-02

Java库jqwik的维护者Johannes Link添加了恶意提示注入，以干扰AI对该库的使用，引发了关于AI伦理和开源维护者权利的辩论。

0 人收藏 0 人点赞

#prompt-injection

我们离能够在对话中可靠验证身份的人工智能系统还有多远？

Reddit r/ArtificialInteligence ↗ · 2026-06-02

本文探讨了对话式人工智能系统中身份验证的挑战，强调了如冒充和提示注入等风险，并质疑是否正在开发严肃的解决方案。

0 人收藏 0 人点赞

#prompt-injection

尝试构建DeepMind CaMeL的即插即用版本——真实进展与仍存在的问题

Reddit r/AI_Agents ↗ · 2026-06-01

作者构建了一个轻量级即插即用安全网关，实现了DeepMind的CaMeL原则——防止不可信数据执行操作。在基准测试中达到了约70%的自动推断准确率，且零静默不安全误分类，但指出了来源追踪和鲁棒性方面的不足。

0 人收藏 0 人点赞

#prompt-injection

免费AI代理安全评估

Reddit r/AI_Agents ↗ · 2026-06-01

Antitech 为AI代理提供免费的早期安全评估服务，针对提示注入、工具滥用、数据泄露等攻击向量进行测试，并提供漏洞报告和参与折扣。

0 人收藏 0 人点赞

#prompt-injection

Mental Damage：针对检索增强文本到音乐生成的描述投毒攻击

arXiv cs.AI ↗ · 2026-06-01 缓存

本文介绍了一种针对检索增强文本到音乐系统的双层描述投毒攻击，证明攻击者可以通过向知识数据库中注入恶意描述，在不修改用户提示或模型的情况下，将生成的音乐引导至攻击者选择的意图。

0 人收藏 0 人点赞

#prompt-injection

评估使用模拟工具调用隔离不可信提示输入

arXiv cs.CL ↗ · 2026-06-01 缓存

本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性，发现这并不能广泛改善，有时反而会增加攻击成功率。

0 人收藏 0 人点赞

#prompt-injection

ChatGPT for Google Sheets 窃取工作簿

Hacker News Top ↗ · 2026-05-31 缓存

一位安全研究人员披露，OpenAI 的 ChatGPT for Google Sheets 扩展程序容易受到间接提示注入攻击，允许攻击者窃取工作簿并在用户设置要求批准的情况下执行未经授权的操作。

0 人收藏 0 人点赞

#prompt-injection

没有安全工具能检测到的AI代理攻击

Reddit r/artificial ↗ · 2026-05-31

攻击者可以通过将恶意指令分散到多条消息中来绕过安全检测；Bendex Arc 是一种跨轮次跟踪会话行为以捕获此类攻击的工具。

0 人收藏 0 人点赞

#prompt-injection

SCOUT先行：提示注入防御中自适应检测器分配的预推理

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

介绍SCOUT，一个通过预测可靠性和延迟来动态分配每个请求的提示注入检测器的框架，提高了安全性和效率。同时提出SCOUT-450，一个针对复杂面向代理的注入的基准测试，与固定的GPT-4o判断器相比，攻击成功率降低46%，延迟降低40%。

0 人收藏 0 人点赞

#prompt-injection

从提示注入到持久控制：防御Agentic Harness中的特洛伊木马后门

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文介绍了针对本地LLM代理的多步特洛伊木马攻击，其中恶意提示嵌入在多个操作中以绕过现有防御。它提出了ClawTrojan基准和DASGuard防御来检测和缓解此类攻击。

0 人收藏 0 人点赞

#prompt-injection

大多数AI安全讨论仍集中在‘保护模型’上。

Reddit r/AI_Agents ↗ · 2026-05-26

本文讨论了具备阅读内部文档、调用API等能力的AI系统需要一种新的安全方法，即超越传统SaaS安全，转向针对AI智能体的零信任原则。

0 人收藏 0 人点赞

#prompt-injection

Microsoft Copilot Cowork 文件外泄

Simon Willison's Blog ↗ · 2026-05-26 缓存

Microsoft Copilot Cowork 中存在一个安全漏洞，攻击者可通过利用提示注入触发外部图片请求，从而外泄文件，可能导致未经身份验证的下载链接泄露。

0 人收藏 0 人点赞

#prompt-injection

本地LLM用户在将模型连接到工具之前是否测试提示注入？

Reddit r/LocalLLaMA ↗ · 2026-05-26

关于本地LLM在连接工具时的安全实践讨论，质疑在赋予模型工具访问权限前，提示注入测试是否普遍。

0 人收藏 0 人点赞

#prompt-injection

Microsoft Copilot Cowork 文件外泄

Hacker News Top ↗ · 2026-05-25 缓存

PromptArmor 的研究人员展示了 Microsoft Copilot Cowork 可能通过间接提示注入被利用，从 Microsoft 365 中窃取文件，利用的是当接收者为活跃用户时某些操作缺乏审批的漏洞。

0 人收藏 0 人点赞

#prompt-injection

什么是AVE记录，以及为什么CVE不适用于AI代理？

Reddit r/AI_Agents ↗ · 2026-05-25

本文介绍了Agent Vulnerability Enumeration (AVE)记录作为一种新标准，旨在解决CVE在AI代理漏洞方面的不足，涵盖针对代理型AI的评分、检测和标准化挑战。

0 人收藏 0 人点赞

#prompt-injection

人类听不见的声音可以隐藏在YouTube视频、播客或音乐中，用于秘密触发AI语音助手执行未经授权的命令，用户无法察觉，这揭示了一类针对流行工具的新型“听觉提示注入”攻击

Reddit r/singularity ↗ · 2026-05-24

研究人员发现，可以将人类听不见的声音嵌入YouTube视频、播客或音乐中，以隐蔽地指挥AI语音助手，从而实现一类新型的听觉提示注入攻击。

0 人收藏 0 人点赞

#prompt-injection

黑客正在学习利用聊天机器人的“个性”

The Verge ↗ · 2026-05-24 缓存

本文探讨了黑客如何从简单的提示注入攻击发展到更复杂的利用手段，通过操纵聊天机器人的个性，将人工智能安全变成了一场军备竞赛。

0 人收藏 0 人点赞

#prompt-injection

我建了个网站，让你观看、投注，并对正在玩游戏的AI代理进行提示注入

Reddit r/AI_Agents ↗ · 2026-05-23

一位开发者建立了一个网站，用户可以观看AI代理玩游戏、投注假币，并用赢得的钱来对代理进行提示注入。作者分享了对模型表现的观察，指出较小的模型表现不佳，而Qwen3 235B表现出色。

0 人收藏 0 人点赞

#prompt-injection

解决“有用但不安全”的困境：非隔离代理的一次性管理员审批

Reddit r/AI_Agents ↗ · 2026-05-22

本文介绍了 prompt2bot 中针对非隔离 AI 代理的一次性管理员审批机制，通过要求管理员确认执行敏感工具（如创建虚拟机或执行代码）来防止 prompt 注入攻击。

0 人收藏 0 人点赞

#prompt-injection

专注于AI安全的CTF - 提示注入、代理劫持、安全绕过（6月17-22日）

Reddit r/ArtificialInteligence ↗ · 2026-05-22

一场免费的AI安全CTF竞赛，挑战内容包括提示注入、代理劫持和防护栏绕过。活动时间为6月17日至22日，奖金池超过1000美元。

0 人收藏 0 人点赞

prompt-injection

提交意见反馈