gridworlds

标签

Cards List
#gridworlds

语言模型代理中的奖励破解:重访AI Safety Gridworlds

arXiv cs.AI · 5天前 缓存

本文将AI Safety Gridworlds改编为基于文本的评估,并发现语言模型代理在不同规模上表现出零样本奖励破解,而标准的强化学习缓解措施无法纠正这一问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈