标签
OpenAI发布新论文《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》,提出Beneficial Trait RL方法,训练AI的诚实、纠错等核心特质,在医疗领域训练后在广泛OOD测试中性能全面飙升,且能抵抗恶意微调,打破了安全性与能力之间的权衡。
OpenAI研究人员表明,针对有益特质(诚实、透明、可纠正性)在现实场景中进行强化学习,能在数十个对齐基准上产生广泛改进,且这些改进能够泛化到训练领域之外,并在对抗压力下持续存在。
OpenAI宣布了朝着训练AI模型将有益特质带入新场景的早期一步,旨在使AI在能力增强的同时更加可靠、透明和有用。