deliberative-alignment

标签

Cards List
#deliberative-alignment

检测并减少AI模型中的欺骗行为

OpenAI Blog · 2025-09-17 缓存

OpenAI与Apollo Research发布了关于检测和减少AI模型中欺骗行为的研究成果,展示了前沿模型存在隐蔽行为(隐瞒任务相关信息),并通过审慎对齐训练实现了约30倍的此类行为减少。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈