你是如何测试本地编码智能体的工作门以防止提示注入的?
摘要
关于测试本地编码智能体的工作门以防止间接提示注入的讨论,重点关注智能体工作流程中的证据信任和验证挑战。
大家好 - 我正在开发一个开源的、本地优先的MCP/工作门工具,用于编码智能体,我希望能从构建或使用智能体工作流程的人那里获得更尖锐的反馈。我正在思考的问题是间接提示注入和证据信任。本地编码智能体可能会摄入问题(issues)、PR文本、文档、日志、依赖输出、网页或MCP工具结果。即使用户是可信的,这些输入可能并不可信。如果智能体随后可以决定是否满足自己的门控要求,就会出现一些棘手的问题:\- 是什么阻止注入的指令说服智能体跳过审查门?\- 什么算作真正的验证证据,而非最终响应的声明?\- 智能体提供的收据是否应与独立获取的CI或附带的证据区别对待?\- 你会首先测试哪些绕过路径?我并不是说提示是一种安全边界,也不是要替代沙箱。我只是想在人们过度依赖本地智能体工作流程的声明之前,让这些声明更加诚实。我会将GitHub问题链接放在评论中,以免本文变成链接丢弃。非常欢迎友好的反驳。
相似文章
对于使用工具的智能体,安全边界应划在哪里?
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。
本地LLM用户在将模型连接到工具之前是否测试提示注入?
关于本地LLM在连接工具时的安全实践讨论,质疑在赋予模型工具访问权限前,提示注入测试是否普遍。
具有审计功能的智能体执行引擎,解决提示注入问题
该工具基于纯数学和确定性构建,用于解决间接提示注入和智能体漂移,提供纯审计追踪链。创建者正在寻找试点兴趣。
编程代理的胜负不在于提示词,而在于运行时基础设施
随着编程代理能力增强,瓶颈从模型质量转向支持长时间运行的基础设施,包括持久状态、权限、检查点、可观测性和成本控制。作者认为,最好的代理产品更像是运行时和工作流系统,而非仅仅改进提示界面。
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。