structure-aware-reward

标签

Cards List
#structure-aware-reward

基于规划器的深度研究强化学习框架:结构感知奖励

arXiv cs.AI · 2026-06-01 缓存

DecomposeR 提出了一种以规划器为中心的强化学习框架,将研究计划表示为类型化的有向无环图(DAG),从而实现对深度研究任务中规划与执行的细粒度优化,在开源基线基础上提升 5.1–8.0 个点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈