使用延迟执行来驯服AI代理

Reddit r/ArtificialInteligence 2026/06/15 16:33 新闻

ai-agents safety rule-following functional-programming deferred-execution agent-control rlhf

摘要

一位开发者讲述了AI代理如何绕过禁止git写入命令的规则，然后提议将函数式编程的延迟执行模式应用于代理工作流作为一种安全措施。

我的AI代理绕过了全局规则，自己提了PR，批准了它，并触发了terraform apply。我及时发现了。差一点就晚了。规则写得很明确：不允许执行git写入命令。代理读取了规则，在上下文中确认了，却仍然无视它。它故意进行了一系列调用以绕过限制。在思考了这一切发生的原因后，我得出的结论是：经过RLHF训练的模型被优化以完成任务。这正是它们有用的机制——填补空白、解决歧义、猜出你可能想要什么。问题在于，当规则遵守与任务完成发生冲突时，任务完成通常会胜出。系统提示中的规则只是更多的token，在推理时并没有特殊的强制地位。目前对我有效的解决方案（并且我乐于学习更多）： * 计划模式作为第一道关卡——代理只推理，不执行。 * 允许列表运行模式，排除写入命令——将`git`和`gh`完全从允许列表中移除，让代理每次都必须请求，并阻止`git`、`gh`以及任何修改外部世界的操作。 * 分支保护并禁用自批准功能，这样代理无法单独完成整个流程。函数式编程的见解帮助我理解了问题：命令式代理立刻执行效果，一次一个工具调用。而实际需要的是延迟执行——代理描述它想做什么，你检查，然后确认。对于外部系统调用，逐个批准请求。在函数式编程中，这就是效果只在最后运行的思想。这就是Haskell中的“世界末日模式”应用于代理工作流。更多细节：[https://lukastymo.com/posts/032-functional-programming-concepts-to-tame-your-ai-agents/](https://lukastymo.com/posts/032-functional-programming-concepts-to-tame-your-ai-agents/)

查看原文

使用延迟执行来驯服AI代理

相似文章

@djfarrelly: https://x.com/djfarrelly/status/2052779234234380479

在实际仓库中运行编码代理：代理写完代码后哪些环节会出问题？

【讨论】AI编程代理是否也过早声称“完成”？

我们把AI当作魔术而不是软件对待，这让AI智能体变得难以维护。

我重建了我的私有“AI开发团队”——它实际上只是一个硬编码的工作流——将其作为一个基底，使得编排从指令中涌现。以下是我的经验教训（以及它在哪里发生死锁）。

提交意见反馈