prompt-injection

#prompt-injection

我对智能代理的信任危机：从 Prompt 注入到 gemini-cli 供应链泄露

Lobsters Hottest ↗ · 昨天缓存

Pillar Security 研究人员披露了 Google 的 gemini-cli 及其相关 GitHub 工作流中存在一个关键的 CVSS 10 漏洞（TrustIssues），该漏洞允许攻击者通过 Prompt 注入窃取密钥并破坏仓库供应链。

0 人收藏 0 人点赞

#prompt-injection

Arc Sentry 在对决基准中 92% 碾压 LLM Guard 的 70%，它是怎么做到的？

Reddit r/artificial ↗ · 2026-04-23

Arc Sentry 是一种全新的“生成前”提示注入检测器，直接读取模型内部残差流，在 130 条提示的基准上实现 92% 检出率、0% 误报；而 LLM Guard 仅 70% 检出率、3.3% 误报。

0 人收藏 0 人点赞

#prompt-injection

设计能抵抗提示词注入的AI智能体

OpenAI Blog ↗ · 2026-03-11 缓存

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见，指出现代攻击日益采用社会工程学策略而非简单的字符串注入，并倡导采用系统级防御措施来限制影响范围，而不是单纯依赖输入过滤。

0 人收藏 0 人点赞

#prompt-injection

改进前沿大语言模型中的指令层级

OpenAI Blog ↗ · 2026-03-10 缓存

OpenAI提出了一种利用指令层级任务的训练方法，通过教导模型根据信任级别（系统 > 开发者 > 用户 > 工具）正确优先处理指令，以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集，应对提示注入攻击并增强安全可控性。

0 人收藏 0 人点赞

#prompt-injection

ChatGPT 推出锁定模式和风险标签

OpenAI Blog ↗ · 2026-02-13 缓存

OpenAI 在 ChatGPT 中引入锁定模式和风险标签，以防止提示注入攻击并保护敏感数据。锁定模式是为高风险用户提供的高级安全设置，可限制 ChatGPT 与外部系统的交互，目前提供给企业计划使用，未来将向消费者推出。

0 人收藏 0 人点赞

#prompt-injection

当AI代理点击链接时保护您的数据安全

OpenAI Blog ↗ · 2026-01-28 缓存

OpenAI 描述了针对AI代理检索网页内容时基于URL的数据泄露攻击的安全防护措施。它利用独立网络索引验证URL是否公开已知，再自动检索，以防止提示注入攻击泄露敏感用户数据。

0 人收藏 0 人点赞

#prompt-injection

持续强化ChatGPT Atlas抵御提示注入攻击

OpenAI Blog ↗ · 2025-12-22 缓存

OpenAI宣布通过对抗训练和强化防护措施，持续加固ChatGPT Atlas以抵御提示注入攻击，包括建立快速响应循环，在新型攻击策略出现于实际环境前即发现并缓解。

0 人收藏 0 人点赞

#prompt-injection

理解提示词注入：AI安全的前沿挑战

OpenAI Blog ↗ · 2025-11-07 缓存

OpenAI发布了关于提示词注入攻击的指导，这是一种社会工程漏洞，恶意指令可以隐藏在网页内容或文档中，诱骗AI模型执行意外操作。该公司概述了其多层防御策略，包括指令层级研究、自动化安全测试和AI驱动的监控系统。

0 人收藏 0 人点赞

#prompt-injection

增强 Gemini 的安全保护

Google DeepMind Blog ↗ · 2025-05-20 缓存

Google DeepMind 宣布为 Gemini 推出高级安全改进措施，通过模型加固、自适应评估和分层防御机制来防御间接提示注入攻击。该方法结合了对抗场景的微调和系统级防护栏，在保持模型性能的同时构建了内在的抗御能力。

0 人收藏 0 人点赞

#prompt-injection

# 通过我们的网络安全赠款计划赋能防御者资料来源：[https://openai.com/index/empowering-defenders-through-our-cybersecurity-grant-program/](https://openai.com/index/empowering-defenders-through-our-cybersecurity-grant-program/) 自创立以来，该计划已支持了多种多样的项目。我们很高兴能够突出展示其中的一些项目。 *UC Berkeley Wagner Lab* 加州大学伯克利分校教授 David Wagner 的安全研究实验室正在开创旨在保护防御者的技术

0 人收藏 0 人点赞

#prompt-injection

指令层级：训练大语言模型优先处理特权指令

OpenAI Blog ↗ · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击，通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性，同时不会削弱标准能力。

0 人收藏 0 人点赞

#prompt-injection

别急着换用AI浏览器（除非你看完这个）

YouTube AI Channels ↗ · 2天前缓存

像OpenAI的Atlas和Perplexity的Comet这样的AI浏览器，将AI助手直接嵌入浏览过程，具备记忆和自主代理能力，但由于提示注入攻击带来的重大安全风险，它们不适合用于敏感用途。

0 人收藏 0 人点赞

prompt-injection

提交意见反馈