failure-driven-rl

#failure-driven-rl

SENTINEL：面向训练工具使用语言模型代理的失败驱动强化学习

arXiv cs.CL ↗ · 2026-06-12 缓存

本文介绍了SENTINEL，一个面向训练工具使用语言模型代理的失败驱动强化学习框架。它使用控制器-提议器-求解器循环，从失败轨迹中生成有针对性的训练任务，从而提升在基准测试上的性能。

0 人收藏 0 人点赞