什么应管控自我改进的AI代理循环?
摘要
作者讨论了在自我改进的AI代理系统中需要第四个治理循环以防止目标漂移,并提出了定期人工审核、保留基准和轮换评估者等实际控制措施。
我运行的生产系统包含三个循环:一个执行工作的运行时循环、一个提出改进建议的评审层以及一个将已接受的变更持续传递下去的持久层。这三者共同实现了变异、选择、持续和迭代。令人不安的是,这三个循环都在问如何改进,却没有一个询问当一项改进虽然提升了分数却偏离了真实目标时是否应该保留。我开始将缺失的这个治理层视为第四个循环。我反复考虑的实际控制措施包括:定期对看似良好的案例进行人工审核、设置一个系统无法对其优化的保留基准、以及轮换评估者以避免同一模型家族总是自我评判。我并未完美解决这个问题;写这篇文章是为了明确揭示这一缺口。人们运行代理系统时,如何判断一项可衡量的改进实际上是目标漂移?完整文章及来源见第一条评论。
相似文章
AI正在吞噬AI工程循环(5分钟阅读)
文章讨论了AI工程循环如何能够完全自动化,但认为将整个循环交给AI会产生'agent slop'(智能体垃圾),因为评估不完善。它建议自动执行某些步骤,同时保留人类判断以处理细微差别。
AI智能体何时应该(以及不应该)自我演进的框架
文章认为,AI智能体的自我演进应谨慎应用,并提出了一种演进监管器(Evolution Governor),该监管器审计工作流以决定是否演进,依据条件如可重复任务和外部反馈。
@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820
探讨了AI编程中从人类在环到自主代理循环的转变,其中代理自我提示并迭代,讨论了减少人类控制的前景与隐藏成本。
我认为“人在回路中”可能成为企业AI最大的治理幻觉之一
本文认为,依赖'人在回路中'作为治理策略是有缺陷的,因为AI系统现在决定何时升级,形成了一种自我报告的依赖。文章建议转向'人类主导的自主性',即由人类定义边界并审计表征质量。
信任-监督悖论:随着AI变得更好,人类可能不再真正监督它
一篇思想文章,指出随着AI变得更准确,人类监督可能会退化为例行批准,从而产生'信任-监督悖论',即高性能AI仍可能因不完整的表征、过时数据或自动化偏见而失败,建议从人工审查转向治理边界。