@OpenAI: 训练模型涉及许多技术和社会流程,因此必须在过程中内置对CoT评分的防范措施。

X AI KOLs 新闻

摘要

OpenAI正在改进安全措施,以防止模型训练中的CoT评分问题,包括实时检测、意外评分预防和压力测试。

训练模型涉及许多技术和社会流程,因此必须在过程中内置CoT评分的防范措施。我们正在改进实时的CoT评分检测、针对意外CoT评分的防护措施、可监控性压力测试,以及在部署前帮助发现这些问题的内部指导和检查。
查看原文

相似文章

检测前沿推理模型中的不当行为

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。

评估思维链的可监控性

OpenAI Blog

OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。

帮助开发者构建更安全的青少年AI体验

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。