标签
本文研究了什么使交互轨迹对训练基于终端的AI智能体有效,介绍了Terminal-Lego流程,并揭示了一个教学悖论:较弱的智能体可以产生更好的训练数据。研究发现,环境基础监督(而非教师性能)是学生泛化能力的关键。