@rohit4verse: 两个月前,我写了《The Harness Is Everything》,获得130万观看。上周的Life-Harness论文:在126个模型环境中,有116个……
摘要
Life-Harness论文表明,仅通过修补评估框架而不修改模型,就能在126个设置中的116个提升性能,在18个骨干网络上实现88.5%的平均提升。
查看缓存全文
缓存时间: 2026/06/02 15:43
2个月前,我写了《The Harness Is Everything》一文,阅读量达130万。
上周的《Life-Harness》论文:126个模型-环境组合中,有116个仅通过修补 harness 就实现了性能提升。
模型冻结。在18个主干网络上平均提升88.5%。
↓ 了解 Claude Code 和 Codex 在 https://t.co/DnZVlaGm30 下的实际运行机制
相似文章
@omarsar0: // 适配接口,而非模型 // 我对我的廉价模型加优质harness构建的结果感到着迷…
提出了Life-Harness,一种通过适配运行时接口而非模型权重来改进冻结的LLM智能体的方法,在126个设置和18个backbones中实现了平均88.5%的相对改进。
停止在不公开执行框架的情况下比较LLM智能体
这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。
你的框架辜负了你的智能体,但却没有基准来证明这一点
本文强调了缺乏用于评估智能体框架可靠性的基准测试,重点探讨了与模型本身相比,MCP 实现如何更好地处理工具调用和错误。
过拟合 Harness 的代价(2 分钟阅读)
本文分析了 OpenAI 可能逐步缩减微调服务的影响,警告称前沿模型可能会过拟合于专有的 Harness。文章指出,尽管这一转变能提升可靠性,但也可能加剧厂商绑定,并降低第三方开发者使用模型的灵活性。
不是能力问题:LLM智能体层级间的控制敏感度是非单调的
本文通过实证测试了“更结构化的控制(harness)能普遍提高LLM智能体可靠性”这一常见假设,发现不同模型层级间存在非单调关系。它引入了HEAT-24基准,并揭示了严格的控制可能会损害前沿聊天模型,但有利于推理模型。