你是如何测试本地编码智能体的工作门以防止提示注入的？

Reddit r/AI_Agents 2026/05/18 20:16 新闻

prompt-injection coding-agents local-ai security verification opensource

摘要

关于测试本地编码智能体的工作门以防止间接提示注入的讨论，重点关注智能体工作流程中的证据信任和验证挑战。

大家好 - 我正在开发一个开源的、本地优先的MCP/工作门工具，用于编码智能体，我希望能从构建或使用智能体工作流程的人那里获得更尖锐的反馈。我正在思考的问题是间接提示注入和证据信任。本地编码智能体可能会摄入问题（issues）、PR文本、文档、日志、依赖输出、网页或MCP工具结果。即使用户是可信的，这些输入可能并不可信。如果智能体随后可以决定是否满足自己的门控要求，就会出现一些棘手的问题：\- 是什么阻止注入的指令说服智能体跳过审查门？\- 什么算作真正的验证证据，而非最终响应的声明？\- 智能体提供的收据是否应与独立获取的CI或附带的证据区别对待？\- 你会首先测试哪些绕过路径？我并不是说提示是一种安全边界，也不是要替代沙箱。我只是想在人们过度依赖本地智能体工作流程的声明之前，让这些声明更加诚实。我会将GitHub问题链接放在评论中，以免本文变成链接丢弃。非常欢迎友好的反驳。

查看原文

你是如何测试本地编码智能体的工作门以防止提示注入的？

相似文章

对于使用工具的智能体，安全边界应划在哪里？

本地LLM用户在将模型连接到工具之前是否测试提示注入？

具有审计功能的智能体执行引擎，解决提示注入问题

编程代理的胜负不在于提示词，而在于运行时基础设施

理解提示词注入：AI安全的前沿挑战

提交意见反馈