标签
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量