graph-based-methods

标签

#graph-based-methods

GraphPO：面向推理模型的基于图策略优化

arXiv cs.CL ↗ · 昨天缓存

GraphPO 是一种新颖的基于图的强化学习框架，它将轨迹表示为一个有向无环图，合并语义等价的推理路径，以减少冗余探索并改进大型推理模型的信用分配。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈