对于使用工具的智能体，安全边界应划在哪里？

Reddit r/AI_Agents 2026/06/14 20:40 新闻

ai-agents prompt-injection security tool-use testing boundaries

摘要

讨论AI智能体使用工具的安全风险，重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为，以及在授予权限前需要进行可重复测试。

我不断看到一些演示，智能体可以读取文档、调用API、写入文件或触发某些业务操作。这正是让我觉得提示注入不那么理论化的部分。风险不在于模型说出奇怪的话，而在于不受信任的文本会改变智能体使用工具时的行为。我现在正围绕这一边界进行测试。没有神奇的修复方法，只是试图让失败足够可重复，以便他人之后能够检查。很好奇这里的人们在给智能体实际权限之前是如何测试它们的。

查看原文

对于使用工具的智能体，安全边界应划在哪里？

相似文章

AI代理是否正在创造一个新的运行时供应链攻击面？

你是如何测试本地编码智能体的工作门以防止提示注入的？

设计能抵抗提示词注入的AI智能体

理解提示词注入：AI安全的前沿挑战

解决“有用但不安全”的困境：非隔离代理的一次性管理员审批

提交意见反馈