reward-engineering

标签

#reward-engineering

@akshay_pachaar: Karpathy关于强化学习的预测正在成真！他指出奖励函数不可靠，并认为单一的奖励…

X AI KOLs Following ↗ · 6天前缓存

Karpathy对强化学习中奖励函数的批评被OpenPipe的ART框架通过RULER解决，该框架允许使用自然语言定义奖励并由LLM评估，取代了手动奖励工程。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈