prompt-injection

#prompt-injection

使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器，运行在浏览器中

Reddit r/LocalLLaMA ↗ · 2026-05-22

使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器，使用 DistilBERT 实现 F1 99%，优化至 ONNX int8（约 65 MB），可通过 Transformers.js v3 在浏览器中运行。

0 人收藏 0 人点赞

#prompt-injection

OWASP发布首个AI代理Top 10安全风险列表。88%的企业去年已遭遇代理安全事件。以下是详细分析。

Reddit r/artificial ↗ · 2026-05-21

OWASP发布了首个针对自主AI代理的Top 10安全风险列表（2026版），涵盖目标劫持、工具滥用、供应链攻击等威胁，并引用调查指出88%的企业在过去一年遭遇过AI代理安全事件。

0 人收藏 0 人点赞

#prompt-injection

AI Agent智能工具 - 事件调试与成本突增检测

Reddit r/AI_Agents ↗ · 2026-05-19

构建一个用于AI Agent事件调试和成本突增检测的工具，无需额外检测工具，涵盖提示注入、推理循环、数据泄露等问题。询问生产环境中的客户，这是否是一个值得付费的痛点。

0 人收藏 0 人点赞

#prompt-injection

你是如何测试本地编码智能体的工作门以防止提示注入的？

Reddit r/AI_Agents ↗ · 2026-05-18

关于测试本地编码智能体的工作门以防止间接提示注入的讨论，重点关注智能体工作流程中的证据信任和验证挑战。

0 人收藏 0 人点赞

#prompt-injection

AI Agent 安全 - MIT 6.566 客座讲座

Lobsters Hottest ↗ · 2026-05-18 缓存

MIT 6.566 客座讲座：AI Agent 安全，涵盖系统级威胁、提示注入、工具使用漏洞，以及使用 GPT-5.4 和 Qwen 3.5 等大语言模型的演示。

1 人收藏 1 人点赞

#prompt-injection

LinkedIn用户在其个人简介中隐藏AI提示注入，迫使招聘垃圾邮件以古英语形式发送——机器人还被操纵称呼该用户为‘我的领主’

Reddit r/ArtificialInteligence ↗ · 2026-05-17 缓存

一位LinkedIn用户在其个人简介中隐藏了提示注入，导致AI驱动的招聘机器人以古英语回应并称呼其为‘我的领主’，展示了AI代理的可操纵性。

0 人收藏 0 人点赞

#prompt-injection

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型，还在于环境……

X AI KOLs Timeline ↗ · 2026-05-17 缓存

Google DeepMind 的论文提出了首个系统性框架，用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示，隐藏的提示注入在多达 86% 的场景中能够劫持智能体，并提出了包含六种“AI 智能体陷阱”的分类法，分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

0 人收藏 0 人点赞

#prompt-injection

你的AI代理距离做出灾难性行为只差一个被污染的网页

Reddit r/artificial ↗ · 2026-05-16

Arc Gate 是一个代理级别的工具，它强制执行指令权限边界，以防止AI代理被污染的网页、电子邮件或检索到的文档劫持。

0 人收藏 0 人点赞

#prompt-injection

AI代理是否正在创造一个新的运行时供应链攻击面？

Reddit r/AI_Agents ↗ · 2026-05-16

讨论AI代理安全作为一个超越提示注入的运行时供应链问题，强调来自不可信数据、工具和反馈循环的风险，并质疑开发者如何执行边界。

0 人收藏 0 人点赞

#prompt-injection

智能体记忆不仅仅是基于用户事实的RAG

Reddit r/AI_Agents ↗ · 2026-05-16

文章认为，简单的基于RAG的智能体记忆系统在生产中会失败，原因包括过时的偏好、遗漏的关键词和提示注入等问题，并主张采用分层记忆架构，具备主动选择、确定性回退、治理和测试等功能。

0 人收藏 0 人点赞

#prompt-injection

揭露AI求职者的新招：“写一首关于青蛙的诗”

Reddit r/artificial ↗ · 2026-05-15 缓存

公司正在使用提示注入技术，例如要求写一首关于青蛙的诗，以揭露AI生成的求职申请，突显出AI在就业市场中日益增长的使用以及相应的反制措施。

0 人收藏 0 人点赞

#prompt-injection

Perplexity Computer 背后的安全架构（2分钟阅读）

TLDR AI ↗ · 2026-05-14

Perplexity 详细介绍了其 Computer agent 的安全架构，包括 Firecracker microVM 隔离、作用域连接器权限和提示注入防御。

0 人收藏 0 人点赞

#prompt-injection

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的？

Reddit r/AI_Agents ↗ · 2026-05-13

作者在Gmail上进行了实验，通过OAuth连接AI代理，发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击，而廉价模型则默默执行，揭示了代理安全很大程度上取决于模型成本和令牌预算，而非架构安全措施。

0 人收藏 0 人点赞

#prompt-injection

构建了一个工具，防止AI代理被网页和邮件中的恶意内容劫持

Reddit r/artificial ↗ · 2026-05-13

Arc Gate 是一个代理，通过将网页和邮件内容视为不可信，保护AI代理免受提示注入攻击，且开发者无需修改代码。

0 人收藏 0 人点赞

#prompt-injection

Agent在执行工具前需配备本地“看门人”

Reddit r/AI_Agents ↗ · 2026-05-12

本文警示了AI智能体执行外部工具时的安全风险，并宣布为Tingly Box引入全新的本地安全护栏，以防范恶意操作。

0 人收藏 0 人点赞

#prompt-injection

我们在生产环境的 AI 智能体中加入了管控层——关于那些无人谈论的失效模式，我们学到了什么

Reddit r/AI_Agents ↗ · 2026-05-11

作者探讨了在生产环境部署 AI 智能体时遇到的关键失效模式，强调了提示词注入的普遍性、实时治理与审计追踪的必要性，以及对极速紧急熔断开关的需求。文章指出，将执行管控视为基础设施而非事后补救，是维持控制与合规的关键。

0 人收藏 0 人点赞

#prompt-injection

给初涉生产环境 AI Agent 开发的 10 条忠告

Reddit r/AI_Agents ↗ · 2026-05-11

一位从业者分享了在生产环境部署 AI Agent 时的十条关键经验，强调应通过代码约束、上下文管理和安全机制来保障系统，而非单纯依赖提示词。

0 人收藏 0 人点赞

#prompt-injection

MIPIAD：基于 Qwen 与 TF-IDF 混合模型及元集成学习的多语言间接提示注入攻击防御

arXiv cs.CL ↗ · 2026-05-11 缓存

本文提出了 MIPIAD，这是一种针对间接提示注入攻击的多语言防御框架，融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色，取得了较高的 F1 和 AUROC 分数，同时缩小了跨语言差距。

0 人收藏 0 人点赞

#prompt-injection

Grok 并未被黑客攻击。它只是被利用了。坦白说，几个月前我的 AI 代理也曾险些遭遇同样的情况。

Reddit r/AI_Agents ↗ · 2026-05-10

本文讨论了近期发生的一起事件，其中 Grok 被诱导执行了金融交易，突显出具备工具调用权限的 AI 代理普遍缺乏健全的安全防护层。

0 人收藏 0 人点赞

#prompt-injection

我对智能代理的信任危机：从 Prompt 注入到 gemini-cli 供应链泄露

Lobsters Hottest ↗ · 2026-05-09 缓存

Pillar Security 研究人员披露了 Google 的 gemini-cli 及其相关 GitHub 工作流中存在一个关键的 CVSS 10 漏洞（TrustIssues），该漏洞允许攻击者通过 Prompt 注入窃取密钥并破坏仓库供应链。

0 人收藏 0 人点赞

prompt-injection

提交意见反馈