标签
这项工作提出了一个模型,该模型学习塑造的“过程奖励”用于机器人强化学习,该奖励会随着策略的改进而自动演变,从而在基准测试和实际环境中提升性能。
StainFlow为GUI代理引入了一种实体污点流过程奖励模型,通过全局实体污点追踪和局部证据关联来改进强化学习中的信用分配,在AndroidWorld上实现了3.2%的相对提升。