标签
Self-Harness 提出了一种新范式,其中基于LLM的智能体通过挖掘模型特定的弱点、提出框架修改,并通过回归测试验证这些修改,从而迭代地改进自身的运行框架,在Terminal-Bench-2.0上跨多个基础模型取得了显著的性能提升。
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。