reward-engineering

标签

Cards List
#reward-engineering

@akshay_pachaar: Karpathy关于强化学习的预测正在成真!他指出奖励函数不可靠,并认为单一的奖励…

X AI KOLs Following · 6天前 缓存

Karpathy对强化学习中奖励函数的批评被OpenPipe的ART框架通过RULER解决,该框架允许使用自然语言定义奖励并由LLM评估,取代了手动奖励工程。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈