@mfpiccolo:Kaffu的‘富人的玩具’这句话是我今年读到关于工具框架的最犀利的评论之一。他对症状的判断是对的……

X AI KOLs Timeline 新闻

摘要

该推文讨论了AI代理框架中的臃肿问题,赞同Kaffu提出的框架变成‘富人的玩具’的批评,并倡导一种由小型可替换工作者组成的可组合架构,以减少漂移,保持系统廉价且易于调试。

Kaffu的‘富人的玩具’这句话是我今年读到关于工具框架的最犀利的评论之一。他对症状的判断是对的。但我在诊断的一个部分上有所保留。 他提到的臃肿漂移——代理工程悄然变成软件工程——是真实存在的。我交谈过的每个框架团队都在大约第九个月时遇到这个问题。你最初采用的框架增加了它本不需要的功能,系统提示词膨胀,检索层翻倍,每次任务的成本增加了三倍。Codex和Claude Code不断改进,你开始怀疑自己到底在构建什么。 我的补充:这种漂移是结构性的。它之所以发生,是因为框架式工具框架的工作单元是整个框架。要增加一个能力,你就得扩展框架;要改变一个行为,你就得分叉框架。臃肿无处可去。 当工作单元缩小到一个狭窄的工作者、一个类型化的函数、一个任务时,漂移就失去了它的作用面。一个错误的检索工作者会被替换,而不是扩展。Kaffu正确倡导的基于数学的重排序器变成一个注册了`rerank::score`的工作者。微调的RoBERTa变成一个注册了`embed::generate`的工作者。它们与LLM提供者工作者在同一条总线上并列。系统通过可组合性保持廉价。 简单来说,一切都变成了工作者。 这本身并不能让工具框架具有经济价值。Kaffu更深的观点仍然成立。团队交付的大多数东西在纸面上很华丽,在生产中却毫无用处。框架时代鼓励了这一点,因为它所销售的单位总是太大。 我不知道具有经济价值的工具框架在稳定状态下是什么样子。我认为它应该是小巧的。小到每个部分都是可替换的、可调试的、可基准测试的,并且可以通过一个100行的微调替代品和一个可观测性工作者进行观测。框架是一个滑块,而不是一座纪念碑。 为了对游戏的热爱。
查看原文
查看缓存全文

缓存时间: 2026/06/02 01:52

Kaffu 提出的“富人的玩具”系列,是我今年读到的关于 harness 最尖锐的观点之一。他对症状的判断是对的。但在诊断的某一部分上,我想提出不同意见。

他所说的“膨胀漂移”——agent 工程悄然变成软件工程——是真实存在的。我接触过的每个 harness 团队,大约在第九个月都会遇到这个问题。你最初采用的框架长出了本不需要的功能,系统提示词不断膨胀,检索层翻倍,每任务成本翻三倍。Codex 和 Claude Code 还在不断变强,你开始怀疑自己到底在构建什么。

我的补充是:这种漂移是结构性的。原因在于,在框架形态的 harness 中,工作单元就是整个框架。要增加一个能力,你就得扩展框架;要改变一个行为,你就得分叉框架。膨胀没有其他地方可去。

当工作单元缩小到单个窄 Worker、单个类型函数、单个任务时,漂移就失去了可依附的表面。一个出错的检索 Worker 会被替换掉,而非扩展。Kaffu 正确推崇的基于数学的重排序器,变成了一个注册 rerank::score 的 Worker;微调后的 RoBERTa 变成了一个注册 embed::generate 的 Worker。它们和 LLM 提供商 Worker 同在一个总线上。系统通过可组合性保持低成本。

简单来说,一切都变成了 Worker。

这本身并不会让 harness 具有经济价值。Kaffu 更深刻的观点依然成立:团队交付的大部分东西,纸面上很漂亮,生产环境里毫无用处。框架时代助长了这一点,因为它售卖的工作单元总是太大。

我不知道稳态下具有经济价值的 harness 长什么样。我觉得它应该很小。小到每个部分都可替换、可调试、可基准测试,并且可通过一个针对 100 行微调替代方案的可观测性 Worker 进行观测。Harness 应该是一个滑块,而非一座纪念碑。

为了热爱。

相似文章

@mfpiccolo: https://x.com/mfpiccolo/status/2060069083878408689

X AI KOLs Timeline

文章认为,当前像 LangChain 和 CrewAI 这样的智能体编排框架将独立关注点捆绑成一个整体模块,导致缺乏灵活性。文章介绍了 iii 引擎,其中每个职责都是一个独立的、可替换的工作单元,通过共享总线和单一触发原语连接,使开发者能够通过替换工作单元而非分叉框架来组合自己的编排方案。

过拟合 Harness 的代价(2 分钟阅读)

TLDR AI

本文分析了 OpenAI 可能逐步缩减微调服务的影响,警告称前沿模型可能会过拟合于专有的 Harness。文章指出,尽管这一转变能提升可靠性,但也可能加剧厂商绑定,并降低第三方开发者使用模型的灵活性。