graph-based-methods

标签

Cards List
#graph-based-methods

GraphPO:面向推理模型的基于图策略优化

arXiv cs.CL · 昨天 缓存

GraphPO 是一种新颖的基于图的强化学习框架,它将轨迹表示为一个有向无环图,合并语义等价的推理路径,以减少冗余探索并改进大型推理模型的信用分配。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈