beacon-framework

#beacon-framework

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL ↗ · 5天前缓存

本文介绍了 BEACON，这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上，该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

0 人收藏 0 人点赞