@mfpiccolo:Kaffu的‘富人的玩具’这句话是我今年读到关于工具框架的最犀利的评论之一。他对症状的判断是对的……
摘要
该推文讨论了AI代理框架中的臃肿问题,赞同Kaffu提出的框架变成‘富人的玩具’的批评,并倡导一种由小型可替换工作者组成的可组合架构,以减少漂移,保持系统廉价且易于调试。
查看缓存全文
缓存时间: 2026/06/02 01:52
Kaffu 提出的“富人的玩具”系列,是我今年读到的关于 harness 最尖锐的观点之一。他对症状的判断是对的。但在诊断的某一部分上,我想提出不同意见。
他所说的“膨胀漂移”——agent 工程悄然变成软件工程——是真实存在的。我接触过的每个 harness 团队,大约在第九个月都会遇到这个问题。你最初采用的框架长出了本不需要的功能,系统提示词不断膨胀,检索层翻倍,每任务成本翻三倍。Codex 和 Claude Code 还在不断变强,你开始怀疑自己到底在构建什么。
我的补充是:这种漂移是结构性的。原因在于,在框架形态的 harness 中,工作单元就是整个框架。要增加一个能力,你就得扩展框架;要改变一个行为,你就得分叉框架。膨胀没有其他地方可去。
当工作单元缩小到单个窄 Worker、单个类型函数、单个任务时,漂移就失去了可依附的表面。一个出错的检索 Worker 会被替换掉,而非扩展。Kaffu 正确推崇的基于数学的重排序器,变成了一个注册 rerank::score 的 Worker;微调后的 RoBERTa 变成了一个注册 embed::generate 的 Worker。它们和 LLM 提供商 Worker 同在一个总线上。系统通过可组合性保持低成本。
简单来说,一切都变成了 Worker。
这本身并不会让 harness 具有经济价值。Kaffu 更深刻的观点依然成立:团队交付的大部分东西,纸面上很漂亮,生产环境里毫无用处。框架时代助长了这一点,因为它售卖的工作单元总是太大。
我不知道稳态下具有经济价值的 harness 长什么样。我觉得它应该很小。小到每个部分都可替换、可调试、可基准测试,并且可通过一个针对 100 行微调替代方案的可观测性 Worker 进行观测。Harness 应该是一个滑块,而非一座纪念碑。
为了热爱。
相似文章
@mfpiccolo: https://x.com/mfpiccolo/status/2060069083878408689
文章认为,当前像 LangChain 和 CrewAI 这样的智能体编排框架将独立关注点捆绑成一个整体模块,导致缺乏灵活性。文章介绍了 iii 引擎,其中每个职责都是一个独立的、可替换的工作单元,通过共享总线和单一触发原语连接,使开发者能够通过替换工作单元而非分叉框架来组合自己的编排方案。
@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……
Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。
观察:每个模型的最佳代理框架将由模型开发者自身提供
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
@oran_ge: 未来每个团队都是在做 harness 工程,每个人都需要理解这套框架 虽然有一些非共识的点,但这篇是个不错的综述
An opinion piece suggesting that AI teams will increasingly focus on 'harness engineering' and advocating for a review article on the framework.
过拟合 Harness 的代价(2 分钟阅读)
本文分析了 OpenAI 可能逐步缩减微调服务的影响,警告称前沿模型可能会过拟合于专有的 Harness。文章指出,尽管这一转变能提升可靠性,但也可能加剧厂商绑定,并降低第三方开发者使用模型的灵活性。