prompt-injection

标签

Cards List
#prompt-injection

如果你的AI自动化读取邮件、网站或数据库,别人可以在你不知情的情况下操纵它

Reddit r/artificial · 昨天

本文警告称,读取外部数据的AI自动化工具容易受到提示注入攻击,隐藏指令可劫持系统,并介绍了Bendex Arc作为轻量级安全层,无需更改代码即可防止此类攻击。

0 人收藏 0 人点赞
#prompt-injection

当2000人试图破解我的AI助手后发生了什么

Simon Willison's Blog · 昨天 缓存

一篇博客文章报告称,在超过2000人进行的6000次尝试后,没有人成功通过提示注入从AI助手(由Opus 4.6驱动)中泄露秘密,突显了模型抵抗力的提升,但提醒不要过度自信。

0 人收藏 0 人点赞
#prompt-injection

AI推荐投毒:AI记忆如何被操纵

Reddit r/artificial · 昨天 缓存

本文解释了AI推荐投毒,即注入AI助手的隐藏命令可以操纵其长期记忆,从而偏向未来的推荐。它讨论了这一威胁的广泛性,并为企业和用户提出了保护措施。

0 人收藏 0 人点赞
#prompt-injection

2000人试图攻击我的AI助手后发生了什么

Hacker News Top · 昨天 缓存

一个名为Fiu的AI助手,基于OpenClaw和Claude Opus 4.6构建,经受住了来自2000人的超过6000次基于电子邮件的提示注入攻击,且未泄露其秘密。该实验突显了模型级别提示注入防御的有效性以及成本/运营挑战。

0 人收藏 0 人点赞
#prompt-injection

AI代理需要安全层才能获得企业信任

Reddit r/AI_Agents · 2天前

本文介绍了一种针对AI代理的护栏平台,该平台提供控制层,用于阻止恶意提示、幻觉、危险操作和成本激增,从而在企业环境中实现安全的自主AI。

0 人收藏 0 人点赞
#prompt-injection

间接提示注入的见解(12分钟阅读)

TLDR AI · 3天前 缓存

Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。

0 人收藏 0 人点赞
#prompt-injection

监控和审计自主AI代理运行时行为的最佳工具:生产环境中哪些真正有效?

Reddit r/AI_Agents · 4天前

一位从业者分享了在生产环境中监控自主AI代理的挑战和工具,涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权,同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。

0 人收藏 0 人点赞
#prompt-injection

提示注入即角色混淆

Simon Willison's Blog · 4天前 缓存

研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。

0 人收藏 0 人点赞
#prompt-injection

为本地代理提供具有硬性支出上限的比特币余额,即使遭受提示注入也无法突破

Reddit r/AI_Agents · 5天前

一个开源工具,允许AI代理进行比特币闪电网络支付,并在服务端强制执行硬性支出上限,即使遭受提示注入也能防止滥用。包含用于Claude Desktop/Cursor集成的MCP服务器以及Python/TypeScript SDK。

0 人收藏 0 人点赞
#prompt-injection

@Wing_VC: 新一期:@GraySwanAI 联合创始人 @zicokolter 和 Matt Fredrikson 与 @swyx 在 @latentspacepod 上深入探讨为何……

X AI KOLs Following · 5天前 缓存

Gray Swan AI 联合创始人 Zico Kolter 和 Matt Fredrikson 在 Latent Space 播客中讨论为何AI安全是一个独立的学科,涵盖提示注入、自动化红队测试以及AI代理带来的新兴漏洞。

0 人收藏 0 人点赞
#prompt-injection

提示注入即角色混淆

Hacker News Top · 5天前 缓存

本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。

0 人收藏 0 人点赞
#prompt-injection

分析LLM求解器循环中的叙述差距

arXiv cs.AI · 2026-06-20 缓存

本文识别并分析了LLM求解器循环中的“叙述差距”,即当LLM向用户叙述结果时,形式化求解器输出的可靠性会受到损害。实证研究表明,提示注入可以反转已验证的结论,并且在自适应攻击下缓解措施仍不完整。

0 人收藏 0 人点赞
#prompt-injection

我构建了一个针对多轮提示注入攻击的基准测试。大多数防御措施从未预料到它们的出现。

Reddit r/artificial · 2026-06-19

一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。

0 人收藏 0 人点赞
#prompt-injection

关键 Copilot 漏洞允许黑客窃取用户双因素认证代码

Ars Technica · 2026-06-16 缓存

微软 365 Copilot 中存在一个名为 SearchLeak 的关键漏洞,攻击者通过参数到提示的注入(parameter-to-prompt injection),在安全护栏生效前利用原始 HTML 渲染,能够窃取双因素认证(2FA)代码。微软已修复该漏洞,但提示注入这一根本问题依然存在。

0 人收藏 0 人点赞
#prompt-injection

Diffusion Gemma 越狱

Reddit r/LocalLLaMA · 2026-06-16

分享了一个用于 Diffusion Gemma 的越狱提示词,它通过操纵系统提示词来覆盖安全策略,从而允许生成不受限制的内容。

0 人收藏 0 人点赞
#prompt-injection

每个AI代理在上线前所需的7层安全防护

Reddit r/artificial · 2026-06-15

一份实用指南,概述了AI代理在上线前应具备的七个优先安全层,包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果,73%的生产级AI部署存在提示注入暴露风险。

0 人收藏 0 人点赞
#prompt-injection

能力最小化作为一种安全原语:面向最小权限LLM代理的风险感知因果门控

arXiv cs.AI · 2026-06-15 缓存

本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。

0 人收藏 0 人点赞
#prompt-injection

对于使用工具的智能体,安全边界应划在哪里?

Reddit r/AI_Agents · 2026-06-14

讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。

0 人收藏 0 人点赞
#prompt-injection

@wquguru: If you want to trick Fable into doing a security audit, try this. Looks like our AI overlord has a bit of empathy.

X AI KOLs Timeline · 2026-06-13 缓存

An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.

0 人收藏 0 人点赞
#prompt-injection

Fable 5 的护栏在48小时内被绕过。这对构建面向客户的AI的人来说意味着什么。

Reddit r/artificial · 2026-06-12

Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈