过拟合 Harness 的代价(2 分钟阅读)
摘要
本文分析了 OpenAI 可能逐步缩减微调服务的影响,警告称前沿模型可能会过拟合于专有的 Harness。文章指出,尽管这一转变能提升可靠性,但也可能加剧厂商绑定,并降低第三方开发者使用模型的灵活性。
头部实验室正将模型聚焦于少数特定用例,同时将其 Harness 设计直接训练进模型中,导致模型泛化能力下降。虽然这可能让部分企业的应用构建变得更加简单,但代价是陷入厂商绑定。
查看缓存全文
缓存时间: 2026/05/11 18:35
# harness 过拟合的代价
来源:https://www.dbreunig.com/2026/05/10/overfitting-the-harness.html
OpenAI 逐步停止微调(https://x.com/bradenjhancock/status/2053309599248453999?s=20)是一个有趣的发展,值得观察。
一方面,模型最大化主义者会认为,最大的模型在越来越多的任务上表现更好,因此调整其权重的必要性降低了。
另一方面,大型实验室不断将他们的模型推向少数几个用例,同时将他们的 harness 设计训练进模型中,使得模型的通用性降低。有一种观点认为*这没关系*,因为编码和推理能力将解决大多数其他问题。
但我们最终得到的是为其自身 harness 构建的模型。Mario Zechner(https://x.com/badlogicgames/status/2052496187006054847?s=20)本周一直在 OSSPi harness(https://pi.dev/)中与 GPT 较量,试图驯服出特定的 harness 内行为,而 Claude 每一步都在跟他作对。
如果这种情况持续下去,可能会出现这样一种局面:第三方 harness 在与前沿实验室模型一起使用时价值降低,因为第一方 harness 行为已经*内置*(https://www.dbreunig.com/2025/06/03/comparing-system-prompts-across-claude-versions.html)了。而且不再存在微调这一逃生通道来泛化掉这种行为。
在这个世界里,前沿模型将更像家电,而不是通用平台 1(https://www.dbreunig.com/2026/05/10/overfitting-the-harness.html#fn:nrc)。它们的 harness 被训练进去且无法调整?这可能使某些企业的应用构建更容易,但代价是锁定。对许多人来说,可靠性的提升将是值得的。
相似文章
观察:每个模型的最佳代理框架将由模型开发者自身提供
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
不是能力问题:LLM智能体层级间的控制敏感度是非单调的
本文通过实证测试了“更结构化的控制(harness)能普遍提高LLM智能体可靠性”这一常见假设,发现不同模型层级间存在非单调关系。它引入了HEAT-24基准,并揭示了严格的控制可能会损害前沿聊天模型,但有利于推理模型。
@rohit4verse: 两个月前,我写了《The Harness Is Everything》,获得130万观看。上周的Life-Harness论文:在126个模型环境中,有116个……
Life-Harness论文表明,仅通过修补评估框架而不修改模型,就能在126个设置中的116个提升性能,在18个骨干网络上实现88.5%的平均提升。
@mfpiccolo:Kaffu的‘富人的玩具’这句话是我今年读到关于工具框架的最犀利的评论之一。他对症状的判断是对的……
该推文讨论了AI代理框架中的臃肿问题,赞同Kaffu提出的框架变成‘富人的玩具’的批评,并倡导一种由小型可替换工作者组成的可组合架构,以减少漂移,保持系统廉价且易于调试。
同一模型,不同框架:性能波动高达30-50个百分点。但团队依然仅凭模型名称来挑选智能体。
文章指出,智能体框架对性能的影响(30-50个百分点的波动)远大于模型选择本身,认为团队应关注实例级别的验证,而不仅仅盯着模型名称。