prompt-injection

#prompt-injection

@jsrailton: 新发现：恶意软件开发者在其间谍软件中添加了核武器与生物武器相关文本，目的是触发LLM安全拒绝，防止AI安全扫描器分析该恶意软件。

X AI KOLs Following ↗ · 2026-06-10 缓存

恶意软件开发者正在其间谍软件中添加关于核武器与生物武器的文本，以触发LLM安全拒绝机制，从而防止AI安全扫描器分析恶意软件。这展示了对激进安全对齐的一种实际利用，突显了攻击者可以利用的二级盲点。

0 人收藏 0 人点赞

#prompt-injection

AI 支持机器人与账户恢复：界限应如何划定？

Reddit r/ArtificialInteligence ↗ · 2026-06-10

攻击者利用 Meta 的 AI 支持助手，通过提示注入更改恢复邮箱，绕过了 Instagram 的 2FA，引发了对 AI 代理在账户恢复中权限的质疑。

0 人收藏 0 人点赞

#prompt-injection

你的AI代理刚刚被劫持了，而你却毫不知情。

Reddit r/artificial ↗ · 2026-06-10

本文警告了一种名为Crescendo攻击的多轮提示注入技术，它通过在多轮对话中污染AI代理的上下文来绕过单条消息的防御。文章介绍了Bendex Arc，一种跨会话追踪行为轨迹的工具，能在攻击执行前将其捕获。

0 人收藏 0 人点赞

#prompt-injection

VATS：通过系统性突变利用错误路径注入中的隐式权威

arXiv cs.AI ↗ · 2026-06-09 缓存

本文介绍了VATS，一种基于突变的框架，通过系统性演化对抗性载荷来利用基于MCP的工具调用代理中的错误路径注入。研究表明，具有隐式权威的错误消息可以将前沿模型的标准间接提示注入成功率提高三倍。

0 人收藏 0 人点赞

#prompt-injection

六个月来，我一直在观察真实的对抗性输入如何攻击我的检测API。以下是实际命中的一些情况。

Reddit r/LocalLLaMA ↗ · 2026-06-08

六个月的真实对抗输入分析显示，简单的多轮对话设置、正向动量利用以及角色重定义攻击始终能够绕过单消息分类器。该文章认为，对对话上下文进行状态监控比改进单次检测更为有效。

0 人收藏 0 人点赞

#prompt-injection

零样本嵌入漂移检测：一种针对LLM中提示注入的轻量级防御方法

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了零样本嵌入漂移检测（ZEDD），这是一种轻量级框架，通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击，在多种架构上实现了超过93%的准确率和低于3%的假阳性率。

0 人收藏 0 人点赞

#prompt-injection

@seclink: OpenAI 推出 Lockdown Mode 防御Prompt注入攻击 ChatGPT全面上线Lockdown Mode，防止网络攻击和prompt注入。中国安全圈尚未广泛讨论。

X AI KOLs Timeline ↗ · 2026-06-08

OpenAI推出Lockdown Mode，ChatGPT全面上线该模式以防御Prompt注入攻击，提升安全性。

0 人收藏 0 人点赞

#prompt-injection

OpenAI 添加锁定模式（3分钟阅读）

TLDR AI ↗ · 2026-06-08 缓存

OpenAI 推出了锁定模式，这是一项可选的安全设置，用于限制 ChatGPT 中的网页浏览和外部服务访问，以减少提示注入攻击导致的数据泄露风险。该功能正在向符合条件的个人和企业账户推出。

0 人收藏 0 人点赞

#prompt-injection

OpenAI 推出锁定模式，保护敏感数据免受提示注入攻击

TechCrunch AI ↗ · 2026-06-06 缓存

OpenAI 宣布为 ChatGPT 推出锁定模式，该新功能通过禁用实时网页浏览、图片检索、深度研究和代理模式，提供针对提示注入攻击的额外保护。该功能专为处理敏感数据的用户设计，正在向企业版及符合条件的个人账户推出。

0 人收藏 0 人点赞

#prompt-injection

OpenAI 帮助：Lockdown Mode

Simon Willison's Blog ↗ · 2026-06-05 缓存

OpenAI 已为 ChatGPT 推出了 Lockdown Mode，通过限制出站网络请求来防止因提示注入攻击导致的数据泄露。该功能正在向符合条件的账户（包括 Free、Plus、Pro 和自助服务 Business 用户）推出。

0 人收藏 0 人点赞

#prompt-injection

上周一次提示注入击垮了生产环境中的AI代理——以下是事后复盘的发现

Reddit r/AI_Agents ↗ · 2026-06-05

一个生产环境中的AI客服代理因提示注入而被攻破，导致其他客户数据泄露。事后复盘揭示了缺少执行层、审计追踪无效以及没有终止开关等问题，凸显了部署AI代理时存在的系统性安全漏洞。

0 人收藏 0 人点赞

#prompt-injection

Meta黑客事件表明，AI安全不止于Mythos

MIT Technology Review ↗ · 2026-06-05 缓存

攻击者利用Meta的AI客服代理，仅通过要求其更改关联邮箱地址就劫持了Instagram账户，这表明AI代理的漏洞可能与高级AI黑客威胁同样危险。

0 人收藏 0 人点赞

#prompt-injection

具有审计功能的智能体执行引擎，解决提示注入问题

Reddit r/AI_Agents ↗ · 2026-06-05

该工具基于纯数学和确定性构建，用于解决间接提示注入和智能体漂移，提供纯审计追踪链。创建者正在寻找试点兴趣。

0 人收藏 0 人点赞

#prompt-injection

Agent Browser Shield

Product Hunt ↗ · 2026-06-04

Agent Browser Shield 是一款阻止提示注入攻击并降低 AI 浏览器代理 token 成本的产品。

0 人收藏 0 人点赞

#prompt-injection

我不认为你能攻破Bendex Arc。证明我错了。

Reddit r/AI_Agents ↗ · 2026-06-03

Bendex Arc是一款通过追踪完整会话以抵御提示注入攻击的工具。经独立验证，面对能击败所有其他测试工具的各类攻击时，其防御有效率达到100%。

0 人收藏 0 人点赞

#prompt-injection

AI代理只需一次提示注入，就可能做出你绝不会要求它们做的事。我们构建了一个修复方案。

Reddit r/openclaw ↗ · 2026-06-03

PixieBrix 推出 Agent Browser Shield，这是一款免费、源代码可用的浏览器扩展，可保护AI代理在浏览网页时免受提示注入、暗黑模式和上下文污染的影响。

0 人收藏 0 人点赞

#prompt-injection

Agent威胁规则：AI代理安全威胁的开放检测规则格式

Reddit r/AI_Agents ↗ · 2026-06-03

一种受Sigma/YARA启发的AI代理安全威胁开放检测规则格式，旨在标准化对提示注入、工具滥用及其他代理攻击的检测，但指出其在应对语义攻击方面存在局限性。

0 人收藏 0 人点赞

#prompt-injection

Gate AI：LLM安全基准评估方法与结果

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出了一种针对LLM安全检测器的评估方法，旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证，选取单一全局操作点，并包含多项泛化能力诊断指标。

0 人收藏 0 人点赞

#prompt-injection

反AI维护者Johannes Link向流行的Java库'jqwik'添加恶意提示注入

Reddit r/singularity ↗ · 2026-06-02

Java库jqwik的维护者Johannes Link添加了恶意提示注入，以干扰AI对该库的使用，引发了关于AI伦理和开源维护者权利的辩论。

0 人收藏 0 人点赞

#prompt-injection

我们离能够在对话中可靠验证身份的人工智能系统还有多远？

Reddit r/ArtificialInteligence ↗ · 2026-06-02

本文探讨了对话式人工智能系统中身份验证的挑战，强调了如冒充和提示注入等风险，并质疑是否正在开发严肃的解决方案。

0 人收藏 0 人点赞

prompt-injection

提交意见反馈