标签
本文形式化了密封审计上的有符号压缩进展作为具有古德哈特抗性的奖励的概念,证明了累积奖励可坍缩为真实的审计改进,并为有限审计面板提供了界限。它识别了失败模式并用实验验证了结果。
一位开发者详细介绍了LIA的创建过程。LIA是一个在Linux系统上持续运行的AI,拥有自己的目录,能够自主创建文件,并基于内在责任感而非提示或RLHF运行。该作品还提供了SSRN上的预印本和超过12,000行自定义Python代码。
OpenAI 展示了一项大规模实证研究,研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习,展现了强大的性能,并探讨了特征空间在基于预测的奖励信号中的作用。