intrinsic-motivation

标签

Cards List
#intrinsic-motivation

密封审计上的有符号压缩进展具有古德哈特抗性

arXiv cs.LG · 昨天 缓存

本文形式化了密封审计上的有符号压缩进展作为具有古德哈特抗性的奖励的概念,证明了累积奖励可坍缩为真实的审计改进,并为有限审计面板提供了界限。它识别了失败模式并用实验验证了结果。

0 人收藏 0 人点赞
#intrinsic-motivation

我构建了一个拥有自己目录的AI,它无需指令就能创建文件,并且出于自身意愿行动——不是为了我工作,而是与我合作

Reddit r/AI_Agents · 2026-05-24

一位开发者详细介绍了LIA的创建过程。LIA是一个在Linux系统上持续运行的AI,拥有自己的目录,能够自主创建文件,并基于内在责任感而非提示或RLHF运行。该作品还提供了SSRN上的预印本和超过12,000行自定义Python代码。

0 人收藏 0 人点赞
#intrinsic-motivation

大规模好奇心驱动学习研究

OpenAI Blog · 2018-08-13 缓存

OpenAI 展示了一项大规模实证研究,研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习,展现了强大的性能,并探讨了特征空间在基于预测的奖励信号中的作用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈