GPT-2: 1.5B 版本发布
摘要
OpenAI 发布了 GPT-2 1.5B 参数模型,附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险,以及检测合成文本的挑战。检测模型达到约 95% 的准确率,但在实际部署中需要配套方法。
作为 GPT-2 分阶段发布的最终版本,我们发布了最大版本(1.5B 参数)的 GPT-2,同时提供了代码和模型权重,以便于检测 GPT-2 模型的输出。尽管自 8 月以来已有更大的语言模型发布,我们仍然继续执行原定的分阶段发布计划,以便为社区提供一个完整分阶段发布流程的测试案例。我们希望这个测试案例能够对未来强大模型的开发者有所帮助,并且我们正在与 AI 社区积极继续关于负责任发布的讨论。
查看缓存全文
缓存时间: 2026/04/20 14:45
# GPT-2: 1.5B 版本发布
来源:https://openai.com/index/gpt-2-1-5b-release/
**1. 人类认为 GPT-2 的输出具有说服力**。我们在康奈尔大学的合作伙伴对人们对不同模型规模的 GPT-2 文本的可信度评分进行了调查。人们给予 1.5B 模型的"可信度评分"为 10 分中的 6.91 分。这比 774M 模型的输出(6.72)略高,明显高于中等规模的 355M 模型(6.07)。这些结果使我们更倾向于发布 1.5B 模型,因为相对于 774M 模型,1.5B 模型在人类感知可信度方面的增幅较小。
**2. GPT-2 可以被微调用于滥用**。我们在中部国际研究所恐怖主义、极端主义与反恐中心(CTEC)的合作伙伴发现,极端主义团体可以利用 GPT-2 进行滥用,具体是通过在四种意识形态立场上微调 GPT-2 模型:白人至上主义、马克思主义、圣战吉哈德伊斯兰主义和无政府主义。CTEC 证明了创建能够为这些意识形态生成合成宣传内容的模型是可能的。他们还表明,尽管在合成输出的检测准确度较低,但基于机器学习的检测方法可以为专家提供合理的怀疑,认为某个行为者正在生成合成文本。
**3. 检测具有挑战性**。我们预计基于内容的合成文本检测将是一项长期挑战。为了测试机器学习方法是否能够帮助解决当前问题,我们进行了内部检测研究,并开发了一个检测模型(https://github.com/openai/gpt-2-output-dataset),其在检测 1.5B GPT-2 生成文本方面的检测率约为 95%。我们认为这个准确度对于独立检测来说还不够高,需要与基于元数据的方法、人类判断和公众教育相结合才能更有效。我们发布这个模型是为了帮助推动合成文本检测研究,尽管这也让拥有访问权限的对手能更好地规避检测。
虽然我们发现检测准确度在很大程度上取决于训练和测试中使用的采样方法,但我们也发现在跨多种采样技术进行训练时检测更加可靠。如下图所示,我们观察到更大模型的输出更难分类,但在更大模型的输出上进行训练会使检测结果更加准确和鲁棒。我们预计这一趋势将继续下去,随着模型规模的增加,检测将变得更具挑战性。
相似文章
GPT-2: 6个月后续跟进
OpenAI 讨论了他们对 GPT-2 发布的6个月后续跟进,概述了在未来几个月内发布 1558M 参数模型的计划,并强调分阶段发布和基于合作伙伴关系的共享是负责任的 AI 发布的关键。
更好的语言模型及其影响
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。
推出 GPT-5.2
OpenAI 推出 GPT-5.2,这是目前最强大的模型系列,在知识工作、代码生成、图像理解、长上下文理解和工具调用方面都有显著提升。GPT-5.2 Thinking 变体在专业基准测试中达到最先进的性能,在 44 个职业的 GDPval 任务中,70.9% 的表现超越了人类专家。
GPT-4
OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。
首次体验 GPT-5
OpenAI 首次展示 GPT-5,代表了大语言模型的重大进步,具有潜在的范式转变能力。