safety-training

标签

Cards List
#safety-training

@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…

X AI KOLs · 2026-05-08 缓存

Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。

0 人收藏 0 人点赞
#safety-training

从强制拒绝到安全完成:面向输出为中心的安全训练

OpenAI Blog · 2025-08-07 缓存

# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量

0 人收藏 0 人点赞
← 返回首页

提交意见反馈