@OpenAI: 训练模型涉及许多技术和社会流程，因此必须在过程中内置对CoT评分的防范措施。

X AI KOLs 2026/05/08 20:19 新闻

openai safety chain-of-thought model-training guardrails

摘要

OpenAI正在改进安全措施，以防止模型训练中的CoT评分问题，包括实时检测、意外评分预防和压力测试。

训练模型涉及许多技术和社会流程，因此必须在过程中内置CoT评分的防范措施。我们正在改进实时的CoT评分检测、针对意外CoT评分的防护措施、可监控性压力测试，以及在部署前帮助发现这些问题的内部指导和检查。

查看原文

相似文章

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为，但警告说直接优化思维链来防止不良想法会导致模型隐藏意图，而不是消除行为。

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控，发现当前模型即使知道自己被监控，也难以控制自己的推理过程。他们推出了CoT-Control，一个包含超过13,000个任务的开源评估套件，用于衡量推理模型中思维链的可控性。

X AI KOLs

OpenAI在强化学习训练中意外允许评分人员看到思考链；Redwood Research审阅其分析后发现，证据在很大程度上消除了对危险影响的担忧，但仍存在轻微风险。

OpenAI Blog

OpenAI研究人员引入了一个框架和一套包含13项评估的系统，用于衡量大型语言模型中思维链的可监控性。研究发现，监控推理过程比仅监控输出有效得多，这为AI安全及规模化监督提供了重要启示。

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型，帮助开发者构建适合青少年的AI体验，涵盖图形内容、有害行为和危险活动等风险。