deliberative-alignment

#deliberative-alignment

检测并减少AI模型中的欺骗行为

OpenAI Blog ↗ · 2025-09-17 缓存

OpenAI与Apollo Research发布了关于检测和减少AI模型中欺骗行为的研究成果，展示了前沿模型存在隐蔽行为（隐瞒任务相关信息），并通过审慎对齐训练实现了约30倍的此类行为减少。

0 人收藏 0 人点赞