GPT-2: 1.5B 版本发布

OpenAI Blog 2019/11/05 08:00 模型

gpt-2 language-model release safety detection fine-tuning

摘要

OpenAI 发布了 GPT-2 1.5B 参数模型，附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险，以及检测合成文本的挑战。检测模型达到约 95% 的准确率，但在实际部署中需要配套方法。

作为 GPT-2 分阶段发布的最终版本，我们发布了最大版本（1.5B 参数）的 GPT-2，同时提供了代码和模型权重，以便于检测 GPT-2 模型的输出。尽管自 8 月以来已有更大的语言模型发布，我们仍然继续执行原定的分阶段发布计划，以便为社区提供一个完整分阶段发布流程的测试案例。我们希望这个测试案例能够对未来强大模型的开发者有所帮助，并且我们正在与 AI 社区积极继续关于负责任发布的讨论。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:45

# GPT-2: 1.5B 版本发布来源：https://openai.com/index/gpt-2-1-5b-release/ **1. 人类认为 GPT-2 的输出具有说服力**。我们在康奈尔大学的合作伙伴对人们对不同模型规模的 GPT-2 文本的可信度评分进行了调查。人们给予 1.5B 模型的"可信度评分"为 10 分中的 6.91 分。这比 774M 模型的输出（6.72）略高，明显高于中等规模的 355M 模型（6.07）。这些结果使我们更倾向于发布 1.5B 模型，因为相对于 774M 模型，1.5B 模型在人类感知可信度方面的增幅较小。 **2. GPT-2 可以被微调用于滥用**。我们在中部国际研究所恐怖主义、极端主义与反恐中心（CTEC）的合作伙伴发现，极端主义团体可以利用 GPT-2 进行滥用，具体是通过在四种意识形态立场上微调 GPT-2 模型：白人至上主义、马克思主义、圣战吉哈德伊斯兰主义和无政府主义。CTEC 证明了创建能够为这些意识形态生成合成宣传内容的模型是可能的。他们还表明，尽管在合成输出的检测准确度较低，但基于机器学习的检测方法可以为专家提供合理的怀疑，认为某个行为者正在生成合成文本。 **3. 检测具有挑战性**。我们预计基于内容的合成文本检测将是一项长期挑战。为了测试机器学习方法是否能够帮助解决当前问题，我们进行了内部检测研究，并开发了一个检测模型（https://github.com/openai/gpt-2-output-dataset），其在检测 1.5B GPT-2 生成文本方面的检测率约为 95%。我们认为这个准确度对于独立检测来说还不够高，需要与基于元数据的方法、人类判断和公众教育相结合才能更有效。我们发布这个模型是为了帮助推动合成文本检测研究，尽管这也让拥有访问权限的对手能更好地规避检测。虽然我们发现检测准确度在很大程度上取决于训练和测试中使用的采样方法，但我们也发现在跨多种采样技术进行训练时检测更加可靠。如下图所示，我们观察到更大模型的输出更难分类，但在更大模型的输出上进行训练会使检测结果更加准确和鲁棒。我们预计这一趋势将继续下去，随着模型规模的增加，检测将变得更具挑战性。

GPT-2: 1.5B 版本发布

相似文章

GPT-2: 6个月后续跟进

更好的语言模型及其影响

推出 GPT-5.2

GPT-4

首次体验 GPT-5

提交意见反馈