prompt-injection

标签

Cards List
#prompt-injection

AI代理需要安全层才能获得企业信任

Reddit r/AI_Agents · 8小时前

本文介绍了一种针对AI代理的护栏平台,该平台提供控制层,用于阻止恶意提示、幻觉、危险操作和成本激增,从而在企业环境中实现安全的自主AI。

0 人收藏 0 人点赞
#prompt-injection

间接提示注入的见解(12分钟阅读)

TLDR AI · 昨天 缓存

Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。

0 人收藏 0 人点赞
#prompt-injection

监控和审计自主AI代理运行时行为的最佳工具:生产环境中哪些真正有效?

Reddit r/AI_Agents · 昨天

一位从业者分享了在生产环境中监控自主AI代理的挑战和工具,涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权,同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。

0 人收藏 0 人点赞
#prompt-injection

提示注入即角色混淆

Simon Willison's Blog · 2天前 缓存

研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。

0 人收藏 0 人点赞
#prompt-injection

为本地代理提供具有硬性支出上限的比特币余额,即使遭受提示注入也无法突破

Reddit r/AI_Agents · 2天前

一个开源工具,允许AI代理进行比特币闪电网络支付,并在服务端强制执行硬性支出上限,即使遭受提示注入也能防止滥用。包含用于Claude Desktop/Cursor集成的MCP服务器以及Python/TypeScript SDK。

0 人收藏 0 人点赞
#prompt-injection

@Wing_VC: 新一期:@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨为何……

X AI KOLs Following · 2天前 缓存

Gray Swan AI 联合创始人 Zico Kolter 和 Matt Fredrikson 在 Latent Space 播客中讨论为何AI安全是一个独立的学科,涵盖提示注入、自动化红队测试以及AI代理带来的新兴漏洞。

0 人收藏 0 人点赞
#prompt-injection

提示注入即角色混淆

Hacker News Top · 2天前 缓存

本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。

0 人收藏 0 人点赞
#prompt-injection

分析LLM求解器循环中的叙述差距

arXiv cs.AI · 5天前 缓存

本文识别并分析了LLM求解器循环中的“叙述差距”,即当LLM向用户叙述结果时,形式化求解器输出的可靠性会受到损害。实证研究表明,提示注入可以反转已验证的结论,并且在自适应攻击下缓解措施仍不完整。

0 人收藏 0 人点赞
#prompt-injection

我构建了一个针对多轮提示注入攻击的基准测试。大多数防御措施从未预料到它们的出现。

Reddit r/artificial · 5天前

一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。

0 人收藏 0 人点赞
#prompt-injection

关键 Copilot 漏洞允许黑客窃取用户双因素认证代码

Ars Technica · 2026-06-16 缓存

微软 365 Copilot 中存在一个名为 SearchLeak 的关键漏洞,攻击者通过参数到提示的注入(parameter-to-prompt injection),在安全护栏生效前利用原始 HTML 渲染,能够窃取双因素认证(2FA)代码。微软已修复该漏洞,但提示注入这一根本问题依然存在。

0 人收藏 0 人点赞
#prompt-injection

Diffusion Gemma 越狱

Reddit r/LocalLLaMA · 2026-06-16

分享了一个用于 Diffusion Gemma 的越狱提示词,它通过操纵系统提示词来覆盖安全策略,从而允许生成不受限制的内容。

0 人收藏 0 人点赞
#prompt-injection

每个AI代理在上线前所需的7层安全防护

Reddit r/artificial · 2026-06-15

一份实用指南,概述了AI代理在上线前应具备的七个优先安全层,包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果,73%的生产级AI部署存在提示注入暴露风险。

0 人收藏 0 人点赞
#prompt-injection

能力最小化作为一种安全原语:面向最小权限LLM代理的风险感知因果门控

arXiv cs.AI · 2026-06-15 缓存

本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。

0 人收藏 0 人点赞
#prompt-injection

对于使用工具的智能体,安全边界应划在哪里?

Reddit r/AI_Agents · 2026-06-14

讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。

0 人收藏 0 人点赞
#prompt-injection

@wquguru: If you want to trick Fable into doing a security audit, try this. Looks like our AI overlord has a bit of empathy.

X AI KOLs Timeline · 2026-06-13 缓存

An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.

0 人收藏 0 人点赞
#prompt-injection

Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。

Reddit r/artificial · 2026-06-12

Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。

0 人收藏 0 人点赞
#prompt-injection

恶意软件开发者将核武器和生物武器文本添加到其间谍软件中

Hacker News Top · 2026-06-11 缓存

恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本,以触发大语言模型的安全拒绝机制,从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点,攻击者已开始加以利用。

0 人收藏 0 人点赞
#prompt-injection

一笔0.01欧元的银行转账可能危及银行AI代理

Hacker News Top · 2026-06-10 缓存

Blue41披露了Bunq AI助手中的间接提示注入漏洞,一笔带有恶意交易描述的小额银行转账可能将该助手转化为定向钓鱼攻击的载体,这凸显了金融AI代理面临的更广泛架构挑战。

0 人收藏 0 人点赞
#prompt-injection

@jsrailton: 新发现:恶意软件开发者在其间谍软件中添加了核武器与生物武器相关文本,目的是触发LLM安全拒绝,防止AI安全扫描器分析该恶意软件。

X AI KOLs Following · 2026-06-10 缓存

恶意软件开发者正在其间谍软件中添加关于核武器与生物武器的文本,以触发LLM安全拒绝机制,从而防止AI安全扫描器分析恶意软件。这展示了对激进安全对齐的一种实际利用,突显了攻击者可以利用的二级盲点。

0 人收藏 0 人点赞
#prompt-injection

AI 支持机器人与账户恢复:界限应如何划定?

Reddit r/ArtificialInteligence · 2026-06-10

攻击者利用 Meta 的 AI 支持助手,通过提示注入更改恢复邮箱,绕过了 Instagram 的 2FA,引发了对 AI 代理在账户恢复中权限的质疑。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈