关于语言模型安全性和滥用的经验教训

OpenAI Blog 新闻

摘要

OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训,讨论了衡量风险的挑战、现有基准的局限性,以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧,以及继续研究大规模AI部署社会影响测量的必要性。

我们分享最新的思考方式,希望帮助其他AI开发者解决已部署模型的安全性和滥用问题。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 关于语言模型安全和滥用的经验教训 来源:https://openai.com/index/language-model-safety-and-misuse/ 语言模型风险和影响的许多方面仍然难以衡量,因此也难以监控、最小化和以可问责的方式披露。我们积极使用现有的学术基准来评估语言模型,并热切期待继续构建外部工作成果,但我们也发现现有的基准数据集通常不能反映我们在实际中看到的安全和滥用风险。E (https://openai.com/index/language-model-safety-and-misuse/#citation-bottom-E) 这些限制反映了这样一个事实:学术数据集很少是为了明确指导语言模型的生产使用而创建的,也无法从大规模部署这些模型所获得的经验中受益。因此,我们一直在开发新的评估数据集和框架来衡量我们模型的安全性,我们计划很快发布这些。具体来说,我们开发了用于衡量模型输出毒性的新评估指标,也开发了内部分类器来检测违反我们内容政策(在新窗口中打开) (https://beta.openai.com/docs/usage-guidelines/content-guidelines)的内容,如色情内容、仇恨言论、暴力、骚扰和自残。这两者都被用于改进我们的预训练数据F (https://openai.com/index/language-model-safety-and-misuse/#citation-bottom-F)——具体来说,通过使用分类器过滤掉内容,以及使用评估指标来衡量数据集干预的效果。 沿着各种维度可靠地分类单个模型输出很困难,在 OpenAI API 规模上衡量其社会影响更是难上加难。我们进行了几项内部研究以建立这种衡量的制度能力,但这些研究通常引发的问题比给出的答案还多。 我们特别有兴趣更好地理解我们模型的经济影响及其影响的分布。我们有充分的理由相信,当前模型部署对劳动力市场的影响在绝对数值上可能已经很显著,并且随着我们模型能力和范围的增长而增长。迄今为止,我们已了解到各种局部影响,包括在像文案和总结这样由个人执行的现有任务上生产力的大幅提高(有时导致工作流失和创造),以及 API 解锁了之前不可行的新应用的情况,例如大规模定性反馈的综合(https://openai.com/index/gpt-3-apps/)。但我们缺乏对净效应的良好理解。 我们认为,开发和部署强大人工智能技术的企业直面其工作的正面和负面影响是重要的。我们在这篇文章的结论部分讨论了朝这个方向迈出的一些步骤。 上述每项经验教训都引发了其自身的新问题。我们可能仍在某些方面未能检测和预期的安全事件是什么样的?我们如何能更好地衡量风险和影响?我们如何继续提高模型的安全性和实用性,并在两者产生权衡时进行导航? 我们正在与其他部署语言模型的公司积极讨论许多这些问题。但我们也知道没有任何一个组织或一组组织拥有所有答案,我们希望突出几种方式,使读者能够更多地参与理解和塑造我们对最先进人工智能系统的部署。 首先,获得与最先进人工智能系统交互的第一手经验对于理解它们的能力和影响是无价的。我们最近在对有效检测和应对滥用的能力建立了更多信心后,结束了 API 等待列表。支持国家和地区(在新窗口中打开) (https://beta.openai.com/docs/supported-countries)的个人可以通过在这里注册(https://openai.com/api/)来快速获得 OpenAI API 的访问权限。 其次,从事我们特别关注的主题(如偏见和滥用)的研究人员,如果能从财政支持中受益,可以使用此表格(在新窗口中打开) (https://share.hsforms.com/1b-BEAq_qQpKcfFGKwwuhxA4sk30)申请补贴 API 额度。外部研究对于知情我们对这些多方面系统的理解,以及更广泛的公众理解至关重要。 最后,我们今天发布了一份研究议程(https://openai.com/index/economic-impacts/),探索与我们 Codex 系列模型相关的劳动力市场影响,以及对进行此项研究的外部合作者的呼吁。我们很高兴与独立研究人员合作,研究我们技术的影响,以为适当的政策干预提供信息,并最终将我们的思考从代码生成扩展到其他模式。

相似文章

大语言模型部署最佳实践

OpenAI Blog

Cohere、OpenAI 和 AI21 Labs 联合发布了大语言模型开发和部署的初步最佳实践,涵盖使用指南、安全措施、偏差缓解、文档、多元化团队和伦理劳动标准。

帮助开发者构建更安全的青少年AI体验

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。

OpenAI 安全实践

OpenAI Blog

OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。