标签
本文分析了自进化LLM智能体中的两种能力:工具更新能力和工具收益能力。研究发现工具更新能力在不同基础能力层级间持平,而工具收益能力则呈现非单调性,其中中等层级模型收益最大。
本文引入了种群耦合趋势和h场诊断法,分析前沿AI模型在编码与推理能力之间的关系,发现各能力相互协作,但不同实验室侧重点不同。本文提供了测量指南,并预测了基准测试趋于饱和的趋势。