标签
介绍了SkillDAG,一种用于大规模LLM技能选择的自进化类型化有向图,它建模了技能间关系,并允许智能体在执行过程中查询和演化该图,在ALFWorld和SkillsBench上优于基线。
本文首次系统研究了多轮LLM智能体中的信用分配问题,提出了SERL——一种选择性环境重加权学习框架。SERL利用环境反馈在因果相关动作上强化强化学习目标,在ALFWorld和WebShop上分别达到了90.0%和80.1%的成功率。