structure-aware-reward

#structure-aware-reward

基于规划器的深度研究强化学习框架：结构感知奖励

arXiv cs.AI ↗ · 2026-06-01 缓存

DecomposeR 提出了一种以规划器为中心的强化学习框架，将研究计划表示为类型化的有向无环图（DAG），从而实现对深度研究任务中规划与执行的细粒度优化，在开源基线基础上提升 5.1–8.0 个点。

0 人收藏 0 人点赞