failure-driven-rl

标签

Cards List
#failure-driven-rl

SENTINEL:面向训练工具使用语言模型代理的失败驱动强化学习

arXiv cs.CL · 2026-06-12 缓存

本文介绍了SENTINEL,一个面向训练工具使用语言模型代理的失败驱动强化学习框架。它使用控制器-提议器-求解器循环,从失败轨迹中生成有针对性的训练任务,从而提升在基准测试上的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈