BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
failure-driven-rl
标签
Cards
List
#failure-driven-rl
SENTINEL:面向训练工具使用语言模型代理的失败驱动强化学习
arXiv cs.CL
↗
· 2026-06-12
缓存
本文介绍了SENTINEL,一个面向训练工具使用语言模型代理的失败驱动强化学习框架。它使用控制器-提议器-求解器循环,从失败轨迹中生成有针对性的训练任务,从而提升在基准测试上的性能。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交