标签
本文首次系统研究了多轮LLM智能体中的信用分配问题,提出了SERL——一种选择性环境重加权学习框架。SERL利用环境反馈在因果相关动作上强化强化学习目标,在ALFWorld和WebShop上分别达到了90.0%和80.1%的成功率。