为AI智能体构建反馈记忆层,从每次人类批准与拒绝中学习

Reddit r/AI_Agents 论文

摘要

本文提出了一种面向AI智能体的反馈记忆层,该层从每次人类的批准或拒绝中学习,从而通过与用户的交互实现持续改进。

暂无内容
查看原文

相似文章

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。