代理规则必须存在于操作发生的地方
摘要
本文主张,人工智能代理的安全规则应作为硬性工作流约束和权限来实现,而非仅依赖提示词指令。文章强调对于敏感或不可逆的操作,需要明确的检查、审批和日志记录。
我认为“代理规则”正成为工作流设计的一部分,而不仅仅是提示词设计。写下“未经批准不得发送”是有益的。但如果代理可以访问工具,更关键的问题是:这条规则在何处落地生效?代理是否缺乏发送权限?工作流在执行外部操作前是否会暂停?它是否展示了将要影响的内容?是否留下了记录?敏感案例是否会路由至审查环节?对于低风险的个人草稿,书面规则可能已足够。但对于外部的、敏感的、不可逆的、公开的或涉及状态变更的操作,我希望规则转化为权限、停止条件、审批触发器、检查点、日志或审查步骤。否则,规则在很大程度上依赖于模型是否能记住它,以及人类能否在事后发现问题。对于真正的代理工作流来说,这显得过于薄弱。
相似文章
AI代理不仅需要更好的推理能力,还需要更好的停止规则。
AI代理需要更好的停止规则,而不仅仅是推理能力,才能在实际工作流程中值得信赖——这些场景中,不完整的数据、不可逆的操作以及高风险都需要知道何时不应采取行动。
@dabit3: 现在智能体可以行动了,我们需要问:它们何时运行,可以接触什么,工作如何被检查,以及它们获得什么上下文……
作者提出将自动化工程作为一门学科,用于设计触发器、护栏和成功检查,使AI智能体能够安全可靠地运行,无需持续的人类监督。
智能体需要身份标识
文章认为,当AI智能体在共享工作空间中自主执行操作时,必须为每个操作明确归属到智能体及其负责的人类,以确保监督和信任。没有适当的身份和审计追踪,团队无法安全地将更复杂的任务委托给智能体。
当AI智能体采取实际行动时,授权究竟在哪里执行?
探讨了当AI智能体采取实际行动时执行授权所面临的挑战,提出了安全控制应置于何处的问题。
你究竟是如何决定哪些AI代理操作需要经过人类批准才能执行的?
本文探讨了如何判定哪些AI代理操作需要人类审批,引用了2026年1月一起未经授权的2700万美元转账事件,并提出了基于可逆性和影响程度的评估框架。