@OpenAI: 训练模型涉及许多技术和社会流程,因此必须在过程中内置对CoT评分的防范措施。
摘要
OpenAI正在改进安全措施,以防止模型训练中的CoT评分问题,包括实时检测、意外评分预防和压力测试。
训练模型涉及许多技术和社会流程,因此必须在过程中内置CoT评分的防范措施。我们正在改进实时的CoT评分检测、针对意外CoT评分的防护措施、可监控性压力测试,以及在部署前帮助发现这些问题的内部指导和检查。
相似文章
检测前沿推理模型中的不当行为
OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。
推理模型难以控制其思维链,但这其实是好事
OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。
@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈:@redwood_ai, @apolloaievals, @M…
OpenAI在强化学习训练中意外允许评分人员看到思考链;Redwood Research审阅其分析后发现,证据在很大程度上消除了对危险影响的担忧,但仍存在轻微风险。
评估思维链的可监控性
OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。
帮助开发者构建更安全的青少年AI体验
OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。