代码合成大语言模型的危害分析框架

OpenAI Blog 论文

摘要

OpenAI 提出了一套危害分析框架,用于评估 Codex 等代码合成 LLM 相关的安全风险,通过创新的代码生成能力评估方法论来审视技术、社会、政治和经济影响。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 代码合成大语言模型的危害分析框架 来源: https://openai.com/index/a-hazard-analysis-framework-for-code-synthesis-large-language-models/ ## 摘要 Codex 是一个在各种代码库上训练的大语言模型 (LLM),在代码合成和生成方面超越了之前的技术水平。尽管 Codex 提供了众多优势,但能够大规模生成代码的模型存在重大局限性、对齐问题、被滥用的可能性,以及可能加快某些技术领域发展进度的风险,而这些领域本身可能具有破坏稳定性或被滥用的潜力。然而,这些安全影响尚未被充分了解或仍需进一步探索。本文概述了 OpenAI 构建的危害分析框架,用于发现像 Codex 这样的模型部署可能带来的危害或安全风险,包括技术、社会、政治和经济方面的影响。该分析得到了一个新颖的评估框架的支持,该框架可以确定先进代码生成技术在规范提示的复杂性和表达性方面的能力,以及它们理解和执行这些提示相对于人类能力的能力。

相似文章

评估代码生成模型经济影响的研究议程

OpenAI Blog

# 评估代码生成模型经济影响的研究议程 来源:[https://openai.com/index/economic-impacts-research/](https://openai.com/index/economic-impacts-research/) OpenAI 正在开发一项研究计划,以评估代码生成模型的经济影响,并邀请外部研究人员进行合作。在代码上进行训练的大型语言模型 (LLMs) 的能力正在快速发展,这使得研究它们的经济影响变得越来越重要

评估在代码上训练的大型语言模型

OpenAI Blog

OpenAI 推出了 Codex,这是一个在 GitHub 代码上微调的 GPT 模型,在 HumanEval(一个用于从文档字符串进行代码合成的新基准)上实现了 28.8% 的功能正确性,远超 GPT-3(0%)和 GPT-J(11.4%)。该论文表明重复采样可以将性能提升至 70.2%(采样 100 次),并讨论了代码生成系统的局限性和更广泛的影响。

在OpenAI安全运行Codex

OpenAI Blog

OpenAI详细介绍了如何部署Codex并配备安全控制措施,包括沙箱隔离、审批策略、网络策略以及智能体原生遥测,以确保企业环境中编码智能体的安全运行。

关于语言模型安全性和滥用的经验教训

OpenAI Blog

OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训,讨论了衡量风险的挑战、现有基准的局限性,以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧,以及继续研究大规模AI部署社会影响测量的必要性。