openreward

标签

Cards List
#openreward

@adithya_s_k: 现在,您只需几行代码即可使用 TRL 在 OpenReward 提供的 350+ 个强化学习环境上进行训练

X AI KOLs Following · 5天前 缓存

OpenReward 和 TRL 现在支持在超过 350 个强化学习环境中进行训练,只需极少代码。

0 人收藏 0 人点赞
#openreward

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline · 5天前 缓存

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈