代码合成大语言模型的危害分析框架
摘要
OpenAI 提出了一套危害分析框架,用于评估 Codex 等代码合成 LLM 相关的安全风险,通过创新的代码生成能力评估方法论来审视技术、社会、政治和经济影响。
查看缓存全文
缓存时间: 2026/04/20 14:46
相似文章
评估代码生成模型经济影响的研究议程
# 评估代码生成模型经济影响的研究议程 来源:[https://openai.com/index/economic-impacts-research/](https://openai.com/index/economic-impacts-research/) OpenAI 正在开发一项研究计划,以评估代码生成模型的经济影响,并邀请外部研究人员进行合作。在代码上进行训练的大型语言模型 (LLMs) 的能力正在快速发展,这使得研究它们的经济影响变得越来越重要
评估在代码上训练的大型语言模型
OpenAI 推出了 Codex,这是一个在 GitHub 代码上微调的 GPT 模型,在 HumanEval(一个用于从文档字符串进行代码合成的新基准)上实现了 28.8% 的功能正确性,远超 GPT-3(0%)和 GPT-J(11.4%)。该论文表明重复采样可以将性能提升至 70.2%(采样 100 次),并讨论了代码生成系统的局限性和更广泛的影响。
在OpenAI安全运行Codex
OpenAI详细介绍了如何部署Codex并配备安全控制措施,包括沙箱隔离、审批策略、网络策略以及智能体原生遥测,以确保企业环境中编码智能体的安全运行。
CodeAlchemy:大规模合成代码重写
CodeAlchemy 是一个合成数据生成框架,通过五种策略将公开可用的代码转换为语义丰富的训练数据,生成超过5000亿个 token,使得小型模型在代码基准测试上超越大得多的模型。
压力测试医学大语言模型揭示基准准确率之外的潜在安全病理
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。