AI正在吞噬AI工程循环(5分钟阅读)

TLDR AI 新闻

摘要

文章讨论了AI工程循环如何能够完全自动化,但认为将整个循环交给AI会产生'agent slop'(智能体垃圾),因为评估不完善。它建议自动执行某些步骤,同时保留人类判断以处理细微差别。

从技术上讲,AI工程循环现在可以完全自动化,每个分析和评估初创公司都经历了一次性升级,成为持续学习平台,但将整个循环交给AI会产生agent slop,因为智能体针对不完善的评估进行优化,这些评估遗漏了只有开发人员才掌握的细微差别。
查看原文
查看缓存全文

缓存时间: 2026/06/11 00:11

AI 工程循环在技术上现在已经可以完全自动化,每一个分析类和评估类初创公司都会经历一次性的升级,成为持续学习平台。但将整个循环完全交出去会产生“智能体垃圾“(agent slop),因为智能体会针对不完善的评估标准进行优化,从而遗漏只有开发者才掌握的细微差别。


AI 正在吞噬 AI 工程循环

整个 AI 工程循环在技术上现在已经可以完全自动化。但这并不意味着应该这样做。以下是我们认为应该交给智能体处理的部分,以及你应该自己保留的部分。

AI 智能体可以自行运行 AI 工程循环的几乎每一个步骤。工具已就位,上下文已可用,循环可以在没有人类干预的情况下闭合。

这也是行业的发展方向,通常被称为“持续学习“:

swyx@swyx · 6月1日
每一个评估/分析类初创公司都将在2026年经历一次性的代际升级,成为持续学习平台
许多会失败,但一如既往,有品位的会成功
694 630 239K

我们认为这个方向大体正确。我们也认为将整个循环交出去是一个错误。一旦自动化超过了你还能为输出质量担保的临界点,你就会发现自己正在交付智能体垃圾。

我们所说的 AI 工程循环是什么?

AI 工程循环是我们用来描述持续改进 AI 智能体的过程,基于我们在行业和用户群体中观察到的现象。我们在学院中对此进行了详细阐述。

循环的一部分基于实时活动运行。来自生产环境的追踪数据流入,监控系统会标记出任何值得深入研究的内容。监控的一部分是你自己阅读追踪数据,这能让你直接了解系统的行为方式,也是整个过程中最有价值的步骤之一。

其余部分发生在开发阶段,即在发布变更之前。你构建一个近似于真实生产使用情况的数据集,以便系统性地测试变更并逐步提升质量。如果某个变更表现更好,你就将其部署到生产环境。这是一个持续的过程

你可以自动化所有步骤

逐一审视这些步骤,技术上没有一个需要人类参与。为应用添加埋点是智能体现在可以完全自主完成的事情。对于其他每个步骤,平台通常都有 API 或 CLI 可供智能体调用。

因此,如果每个步骤都可以自动化,循环就可以自行闭合。但是,虽然我们可以在技术上自动化整个过程,这并不意味着我们应该这样做。将自己从循环中移除是有代价的,这个代价有一个名字:智能体垃圾

但你会产出智能体垃圾

智能体垃圾:由其他 AI 智能体大规模生产的低质量 AI 智能体。通常是智能体针对不完善的评估标准和数据集进行优化的结果。

你希望你的智能体按照你认为正确的方式行事,具备你在意的细微差别。这些细微差别存在于你的头脑中,并基于你不断演变的观点。自动化整个循环后,智能体会朝着一个不完整的目标进行优化,并且会随着时间的推移而变得过时。

这会产生一种智能体,它大体上按你想要的方式运行,但人们会觉得质量水平不足。你的用户值得更好的体验,而你有责任维护这个高标准。

一个不完整目标函数的实际例子是,当我们在 Langfuse 技能上运行自动研究时。智能体会根据评估器的梯度进行优化,因此如果你错误地设定了目标,它就会很快朝着错误的方向移动。

什么要自动化,什么要保持手动

我们确实看到了一个未来,其中大部分循环会自主运行。但你需要就智能体可以拥有哪些环节做出审慎的选择,并将自己的判断保留在你认为判断本身就是产品的地方

如果你处理得好,你的质量应该会提升,因为你可以专注于那些你原本没有时间去做的高杠杆工作。但如果你做得过头了,你就有产出智能体垃圾的风险。

保持手动查看追踪数据

AI 应用会产生你无法提前预测的行为。如果你只读取智能体或先前设置的评估器为你标记出来的追踪数据,那么你只能看到它已经被指示去查看的那一部分。为了捕捉那些可能会被遗漏的数据,请定期抽样你的追踪数据并亲自阅读。这也是形成你观点的地方

在形成观点的过程中,你会对这些追踪数据留下反馈,智能体随后可以抓取这些反馈。这些纠正动作会将智能体拉回你认为好的方向。

值得一提的是隐式用户信号的价值。它在技术上是自动化的,但输入仍然来自人类。这是一种很好的方式,可以暴露出那些值得深入研究但你并没有告诉系统去查找的追踪数据。

自动化其余部分

其余的一切都可以交给智能体,前提是它拥有做好这件事所需的上下文

你的应用应该做什么,什么是好的回答,哪些行为是不可接受的:只有你能教给智能体这些。你以具体形式提供这些上下文:你在监控时在追踪数据上留下的反馈,以及你设定的评估方向。在此基础上,你可以与智能体一起构建数据集和评估器。

随着你的应用日趋成熟,这些上下文会越来越多地涉及只有你才能捕捉到的细微差别。所有这些都来自于你查看追踪数据,上下文越精准,你可以安全地移交出去的循环部分就越多。

自动化只有在你对持续评估什么、以及什么才是代表性的数据集和指标有了足够理解之后,才能发挥成效。错误分析是一种很好的方式,可以在你移交之前建立这种理解。

你的品味就是优势

循环中的机械性工作将交给智能体,这是个好消息:它解放了你,让你专注于那些让你的智能体与众不同的部分。当劳动对所有玩家来说都变得一样时,让你的智能体脱颖而出的就是你对于“好“的认识,以及你为此付出的关怀。

本文也发布在 Langfuse 博客上。

相似文章

如何避免AI代码质量下降

Reddit r/ArtificialInteligence

本期通讯文章讨论了AI生成代码速度超过人工代码审查速度所导致的“AI代码质量下降”问题,并提供了平衡速度与质量的策略。

什么应管控自我改进的AI代理循环?

Reddit r/AI_Agents

作者讨论了在自我改进的AI代理系统中需要第四个治理循环以防止目标漂移,并提出了定期人工审核、保留基准和轮换评估者等实际控制措施。