safety-training

#safety-training

@AnthropicAI: 在此阅读全文：https://alignment.anthropic.com/2026/teaching-claude-why/…

X AI KOLs ↗ · 2026-05-08 缓存

Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术，包括基于伦理困境建议和宪法文件进行训练，这些方法在分布外场景中具有良好的泛化能力。

0 人收藏 0 人点赞

#safety-training

从强制拒绝到安全完成：面向输出为中心的安全训练

OpenAI Blog ↗ · 2025-08-07 缓存

# 从强制拒绝到安全完成：面向输出为中心的安全训练来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法，可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比，安全完成提高了安全性和实用性，特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量

0 人收藏 0 人点赞

safety-training

@AnthropicAI: 在此阅读全文：https://alignment.anthropic.com/2026/teaching-claude-why/…

从强制拒绝到安全完成：面向输出为中心的安全训练

提交意见反馈