alignment

#alignment

OpenAI 安全实践

OpenAI Blog ↗ · 2024-05-21 缓存

OpenAI 介绍了其积极采用并不断改进的 10 项安全实践，包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法，将其融入开发的各个环节。

0 人收藏 0 人点赞

#alignment

# 介绍 Model Spec 来源: [https://openai.com/index/introducing-the-model-spec/](https://openai.com/index/introducing-the-model-spec/) OpenAI***2025年2月12日更新****：我们发布了 Model Spec 的更新版本。此次更新进一步强化了我们对可定制性、透明度和智力自由的承诺，允许用户自由地探索、辩论和使用 AI 进行创作，不受任意限制——同时确保保护措施仍然到位，以降低真实伤害的风险。该更新也建立在

0 人收藏 0 人点赞

#alignment

Superalignment Fast Grants

OpenAI Blog ↗ · 2023-12-14 缓存

OpenAI宣布推出Superalignment Fast Grants计划，资助研究如何对齐超级智能AI系统的工作。该计划针对一个根本性挑战：人类如何才能控制和信任能力超过自身的AI系统。OpenAI认为超级智能可能在未来十年内出现，该倡议旨在召集顶尖研究人员解决这一关键技术问题。

0 人收藏 0 人点赞

#alignment

通过过程监督改进数学推理

OpenAI Blog ↗ · 2023-05-31 缓存

OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理，同时降低对齐成本。这种方法在不牺牲模型性能的前提下，产生更易解释、更符合人类价值观的推理过程。

0 人收藏 0 人点赞

#alignment

我们的AI安全方法论

OpenAI Blog ↗ · 2023-04-05 缓存

OpenAI阐述了其全面的AI安全方法，强调严格测试、迭代部署、现实世界监控和监管合作，以确保强大的AI系统得到安全构建和使用。

0 人收藏 0 人点赞

#alignment

为 AGI 及其未来做好准备

OpenAI Blog ↗ · 2023-02-24 缓存

OpenAI 阐述了为 AGI 做准备的战略，强调通过真实世界反馈循环进行渐进式部署，随着系统接近 AGI 能力而提高谨慎程度，以及开发更好的对齐技术以确保 AI 系统保持可控和安全。

0 人收藏 0 人点赞

#alignment

我们的对齐研究方法

OpenAI Blog ↗ · 2022-08-24 缓存

OpenAI 阐述了他们的对齐研究方法，强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型（如 InstructGPT）的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好，但承认当前的局限性，并提出了一项长期战略，即利用 AI 系统来加速人类无法单独实现的对齐研究。

0 人收藏 0 人点赞

#alignment