标签
本文提出WRIT,一种用于合成多轮代理训练轨迹的流水线,该流水线平衡了写密集型与读重复杂度。该方法生成多样化的任务和模拟,使小型模型能够以更低的推理成本实现强大性能。
GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。