webshop

#webshop

何时蒸馏与蒸馏什么：面向多轮智能体的选择性后见蒸馏

arXiv cs.AI ↗ · 2026-05-20 缓存

本文首次系统研究了多轮LLM智能体中的信用分配问题，提出了SERL——一种选择性环境重加权学习框架。SERL利用环境反馈在因果相关动作上强化强化学习目标，在ALFWorld和WebShop上分别达到了90.0%和80.1%的成功率。

0 人收藏 0 人点赞