prompt-injection

标签

Cards List
#prompt-injection

使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器,运行在浏览器中

Reddit r/LocalLLaMA · 2026-05-22

使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。

0 人收藏 0 人点赞
#prompt-injection

OWASP发布首个AI代理Top 10安全风险列表。88%的企业去年已遭遇代理安全事件。以下是详细分析。

Reddit r/artificial · 2026-05-21

OWASP发布了首个针对自主AI代理的Top 10安全风险列表(2026版),涵盖目标劫持、工具滥用、供应链攻击等威胁,并引用调查指出88%的企业在过去一年遭遇过AI代理安全事件。

0 人收藏 0 人点赞
#prompt-injection

AI Agent智能工具 - 事件调试与成本突增检测

Reddit r/AI_Agents · 2026-05-19

构建一个用于AI Agent事件调试和成本突增检测的工具,无需额外检测工具,涵盖提示注入、推理循环、数据泄露等问题。询问生产环境中的客户,这是否是一个值得付费的痛点。

0 人收藏 0 人点赞
#prompt-injection

你是如何测试本地编码智能体的工作门以防止提示注入的?

Reddit r/AI_Agents · 2026-05-18

关于测试本地编码智能体的工作门以防止间接提示注入的讨论,重点关注智能体工作流程中的证据信任和验证挑战。

0 人收藏 0 人点赞
#prompt-injection

AI Agent 安全 - MIT 6.566 客座讲座

Lobsters Hottest · 2026-05-18 缓存

MIT 6.566 客座讲座:AI Agent 安全,涵盖系统级威胁、提示注入、工具使用漏洞,以及使用 GPT-5.4 和 Qwen 3.5 等大语言模型的演示。

1 人收藏 1 人点赞
#prompt-injection

LinkedIn用户在其个人简介中隐藏AI提示注入,迫使招聘垃圾邮件以古英语形式发送——机器人还被操纵称呼该用户为‘我的领主’

Reddit r/ArtificialInteligence · 2026-05-17 缓存

一位LinkedIn用户在其个人简介中隐藏了提示注入,导致AI驱动的招聘机器人以古英语回应并称呼其为‘我的领主’,展示了AI代理的可操纵性。

0 人收藏 0 人点赞
#prompt-injection

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……

X AI KOLs Timeline · 2026-05-17 缓存

Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

0 人收藏 0 人点赞
#prompt-injection

你的AI代理距离做出灾难性行为只差一个被污染的网页

Reddit r/artificial · 2026-05-16

Arc Gate 是一个代理级别的工具,它强制执行指令权限边界,以防止AI代理被污染的网页、电子邮件或检索到的文档劫持。

0 人收藏 0 人点赞
#prompt-injection

AI代理是否正在创造一个新的运行时供应链攻击面?

Reddit r/AI_Agents · 2026-05-16

讨论AI代理安全作为一个超越提示注入的运行时供应链问题,强调来自不可信数据、工具和反馈循环的风险,并质疑开发者如何执行边界。

0 人收藏 0 人点赞
#prompt-injection

智能体记忆不仅仅是基于用户事实的RAG

Reddit r/AI_Agents · 2026-05-16

文章认为,简单的基于RAG的智能体记忆系统在生产中会失败,原因包括过时的偏好、遗漏的关键词和提示注入等问题,并主张采用分层记忆架构,具备主动选择、确定性回退、治理和测试等功能。

0 人收藏 0 人点赞
#prompt-injection

揭露AI求职者的新招:“写一首关于青蛙的诗”

Reddit r/artificial · 2026-05-15 缓存

公司正在使用提示注入技术,例如要求写一首关于青蛙的诗,以揭露AI生成的求职申请,突显出AI在就业市场中日益增长的使用以及相应的反制措施。

0 人收藏 0 人点赞
#prompt-injection

Perplexity Computer 背后的安全架构(2分钟阅读)

TLDR AI · 2026-05-14

Perplexity 详细介绍了其 Computer agent 的安全架构,包括 Firecracker microVM 隔离、作用域连接器权限和提示注入防御。

0 人收藏 0 人点赞
#prompt-injection

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的?

Reddit r/AI_Agents · 2026-05-13

作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。

0 人收藏 0 人点赞
#prompt-injection

构建了一个工具,防止AI代理被网页和邮件中的恶意内容劫持

Reddit r/artificial · 2026-05-13

Arc Gate 是一个代理,通过将网页和邮件内容视为不可信,保护AI代理免受提示注入攻击,且开发者无需修改代码。

0 人收藏 0 人点赞
#prompt-injection

Agent在执行工具前需配备本地“看门人”

Reddit r/AI_Agents · 2026-05-12

本文警示了AI智能体执行外部工具时的安全风险,并宣布为Tingly Box引入全新的本地安全护栏,以防范恶意操作。

0 人收藏 0 人点赞
#prompt-injection

我们在生产环境的 AI 智能体中加入了管控层——关于那些无人谈论的失效模式,我们学到了什么

Reddit r/AI_Agents · 2026-05-11

作者探讨了在生产环境部署 AI 智能体时遇到的关键失效模式,强调了提示词注入的普遍性、实时治理与审计追踪的必要性,以及对极速紧急熔断开关的需求。文章指出,将执行管控视为基础设施而非事后补救,是维持控制与合规的关键。

0 人收藏 0 人点赞
#prompt-injection

给初涉生产环境 AI Agent 开发的 10 条忠告

Reddit r/AI_Agents · 2026-05-11

一位从业者分享了在生产环境部署 AI Agent 时的十条关键经验,强调应通过代码约束、上下文管理和安全机制来保障系统,而非单纯依赖提示词。

0 人收藏 0 人点赞
#prompt-injection

MIPIAD:基于 Qwen 与 TF-IDF 混合模型及元集成学习的多语言间接提示注入攻击防御

arXiv cs.CL · 2026-05-11 缓存

本文提出了 MIPIAD,这是一种针对间接提示注入攻击的多语言防御框架,融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色,取得了较高的 F1 和 AUROC 分数,同时缩小了跨语言差距。

0 人收藏 0 人点赞
#prompt-injection

Grok 并未被黑客攻击。它只是被利用了。坦白说,几个月前我的 AI 代理也曾险些遭遇同样的情况。

Reddit r/AI_Agents · 2026-05-10

本文讨论了近期发生的一起事件,其中 Grok 被诱导执行了金融交易,突显出具备工具调用权限的 AI 代理普遍缺乏健全的安全防护层。

0 人收藏 0 人点赞
#prompt-injection

我对智能代理的信任危机:从 Prompt 注入到 gemini-cli 供应链泄露

Lobsters Hottest · 2026-05-09 缓存

Pillar Security 研究人员披露了 Google 的 gemini-cli 及其相关 GitHub 工作流中存在一个关键的 CVSS 10 漏洞(TrustIssues),该漏洞允许攻击者通过 Prompt 注入窃取密钥并破坏仓库供应链。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈