beneficial-ai

标签

Cards List
#beneficial-ai

@Phoenixyin13: 我认为这是三年以来AI对齐的史诗级突破。 OpenAI 团队刚刚丢下一颗重磅炸弹:最新研究论文 《Reinforcement Learning Towards Broadly and Persistently Beneficial Mod…

X AI KOLs Timeline · 4天前 缓存

OpenAI发布新论文《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》,提出Beneficial Trait RL方法,训练AI的诚实、纠错等核心特质,在医疗领域训练后在广泛OOD测试中性能全面飙升,且能抵抗恶意微调,打破了安全性与能力之间的权衡。

0 人收藏 0 人点赞
#beneficial-ai

强化学习走向广泛且持久的受益模型(22分钟阅读)

TLDR AI · 5天前 缓存

OpenAI研究人员表明,针对有益特质(诚实、透明、可纠正性)在现实场景中进行强化学习,能在数十个对齐基准上产生广泛改进,且这些改进能够泛化到训练领域之外,并在对抗压力下持续存在。

0 人收藏 0 人点赞
#beneficial-ai

@OpenAI:这是朝着更强大有益且更对齐的模型迈出的早期一步:训练模型将有益特质带入新场景……

X AI KOLs · 5天前

OpenAI宣布了朝着训练AI模型将有益特质带入新场景的早期一步,旨在使AI在能力增强的同时更加可靠、透明和有用。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈