@rohit4verse: 两个月前，我写了《The Harness Is Everything》，获得130万观看。上周的Life-Harness论文：在126个模型环境中，有116个……

X AI KOLs Timeline 2026/05/31 19:29 论文

摘要

Life-Harness论文表明，仅通过修补评估框架而不修改模型，就能在126个设置中的116个提升性能，在18个骨干网络上实现88.5%的平均提升。

两个月前，我写了《The Harness Is Everything》，获得130万观看。上周的Life-Harness论文：仅通过修补评估框架，就有116个模型-环境组合得到改善。模型冻结。在18个骨干网络上实现88.5%的平均提升。 ↓ 下面介绍Claude Code和Codex在实际中如何工作 https://t.co/DnZVlaGm30

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:43

2个月前，我写了《The Harness Is Everything》一文，阅读量达130万。

上周的《Life-Harness》论文：126个模型-环境组合中，有116个仅通过修补 harness 就实现了性能提升。

模型冻结。在18个主干网络上平均提升88.5%。

↓ 了解 Claude Code 和 Codex 在 https://t.co/DnZVlaGm30 下的实际运行机制

相似文章

@akshay_pachaar: 现在重要的是框架。模型只是商品。模型本身只返回文本。它产生的任何东西都无法…

X AI KOLs Timeline

本文认为，现在框架（代理框架）比模型本身更关键，并通过Cline的测试展示出推理预算调整带来的性能差异。Cline推出了ClinePass，这是一种订阅服务，可以折扣价在其框架内使用多个开放权重模型。

@omarsar0: // 适配接口，而非模型 // 我对我的廉价模型加优质harness构建的结果感到着迷…

X AI KOLs Following

提出了Life-Harness，一种通过适配运行时接口而非模型权重来改进冻结的LLM智能体的方法，在126个设置和18个backbones中实现了平均88.5%的相对改进。

@akshay_pachaar: 不要训练模型，而要进化工具层。

X AI KOLs Following

文章讨论了 Hugging Face 的一个实验：一个自动循环仅重写冻结模型周围的代码（工具层），在不改变模型权重的情况下，将其基准分数从 0% 提升到接近 Sonnet 4.6 的水平，且成本更低。这证明许多基准测试失败源于工具层，而非模型本身。

Self-Harness: 自我改进的Harness

Hacker News Top

Self-Harness 提出了一种新范式，其中基于LLM的智能体通过挖掘模型特定的弱点、提出框架修改，并通过回归测试验证这些修改，从而迭代地改进自身的运行框架，在Terminal-Bench-2.0上跨多个基础模型取得了显著的性能提升。

@omarsar0: // 自我束具：能自我改进的束具 // （收藏这个）我们今天依赖的大多数智能体框架…

X AI KOLs Following

本文介绍了自我束具（Self-Harness），一种新的范式，其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体，在多个模型上取得了显著的性能提升。

相似文章

@akshay_pachaar: 现在重要的是框架。模型只是商品。模型本身只返回文本。它产生的任何东西都无法…

@omarsar0: // 适配接口，而非模型 // 我对我的廉价模型加优质harness构建的结果感到着迷…

@akshay_pachaar: 不要训练模型，而要进化工具层。

Self-Harness: 自我改进的Harness

@omarsar0: // 自我束具：能自我改进的束具 // （收藏这个）我们今天依赖的大多数智能体框架…

提交意见反馈