webshop

标签

Cards List
#webshop

何时蒸馏与蒸馏什么:面向多轮智能体的选择性后见蒸馏

arXiv cs.AI · 2026-05-20 缓存

本文首次系统研究了多轮LLM智能体中的信用分配问题,提出了SERL——一种选择性环境重加权学习框架。SERL利用环境反馈在因果相关动作上强化强化学习目标,在ALFWorld和WebShop上分别达到了90.0%和80.1%的成功率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈