process-rewards

#process-rewards

@svlevine: 我们可以学习一个模型，为机器人强化学习提供塑造的“过程奖励”，它会随着策略的改进而自动演变…

X AI KOLs Timeline ↗ · 3天前缓存

这项工作提出了一个模型，该模型学习塑造的“过程奖励”用于机器人强化学习，该奖励会随着策略的改进而自动演变，从而在基准测试和实际环境中提升性能。

0 人收藏 0 人点赞

#process-rewards

arXiv cs.AI ↗ · 2026-06-08 缓存

StainFlow为GUI代理引入了一种实体污点流过程奖励模型，通过全局实体污点追踪和局部证据关联来改进强化学习中的信用分配，在AndroidWorld上实现了3.2%的相对提升。

0 人收藏 0 人点赞