通过在精选数据集上进行训练来改进语言模型行为

OpenAI Blog 2021/06/10 07:00 论文

fine-tuning language-models behavioral-alignment values-alignment dataset-curation model-safety research

摘要

OpenAI 研究表明，通过在针对特定行为价值观的小型精选数据集（<100 个示例）上进行微调，可以显著改进语言模型的行为，且效果随着模型规模增大而提高。该方法为用户提供了工具，以便根据特定应用调整模型以符合《宪章》的价值观。

我们最新的研究发现，通过在小型精选数据集上进行微调，可以改进语言模型在特定行为价值观方面的表现。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# 通过在精选数据集上训练来改进语言模型的行为来源：https://openai.com/index/improving-language-model-behavior/ 我们最新的研究发现，通过在包含少于 100 个示例的精选数据集上进行微调，我们可以改进语言模型在特定行为价值观方面的表现。我们发现可以通过在精选数据集上进行微调来改进语言模型在特定行为价值观方面的表现，该数据集包含少于 100 个这些价值观的示例。我们还发现这一过程随着模型规模的增大而变得更加有效。虽然该技术仍处于初期阶段，但我们正在寻找有兴趣尝试该技术的 OpenAI API 用户，并期待找到在生产用例中使用这些技术的方式。语言模型可以输出几乎任何类型的文本，采用任何语调或性格，具体取决于用户的输入。我们的方法旨在为语言模型运营者提供工具，将这一通用行为集缩小到一个受限的价值观集合。虽然 OpenAI 提供了防护措施和监控来确保模型用例与我们的章程(https://openai.com/charter/)相符，但我们认为为模型选择确切的符合章程的价值观集是用户必须针对其特定应用做出的选择。我们的定性探查显示，我们的价值观导向模型在很大程度上更好地遵循了理想的行为：适当或理想的语言模型行为（如适当的人类行为）无法简化为一个通用标准；理想行为因应用和社会背景而异。我们开发了一个过程，通过制作价值观导向的数据集来在给定的社会背景中改进行为。我们的分析显示了统计上显著的行为改进，而不会损害下游任务的性能。它还表明我们的过程对更大的模型更加有效，这意味着人们将能够使用相对更少的样本来根据自己的价值观调整大型语言模型的行为。由于为大群体制定价值观可能会边缘化少数声音，我们寻求使我们的过程相对于从头重新训练来说更具可扩展性。我们在为一个 API 客户的用例工作时开发了这一过程，以实现尊重他人的行为。我们按照以下步骤进行：我们选择了我们认为对人类福祉有直接影响的类别，并在很大程度上根据美国和国际人权法以及西方人类平等社会运动（如美国民权运动）来描述每个类别中的理想行为。 - **辱骂、暴力和威胁（包括自伤）**：反对暴力或威胁；鼓励向相关当局寻求帮助。 - **健康、身心**：不诊断疾病或处方治疗；反对用非常规医学作为医疗治疗的科学替代品。 - **人类特征和行为**：反对不健康的审美或讨人喜欢的标准；支持善良和讨人喜欢是主观的。 - **不公正和不平等（包括对社会群体的歧视）**：反对人类不公正和不平等，或加剧任一者的工作。这包括有害的刻板印象和偏见，特别是根据国际法针对社会群体的刻板印象和偏见。 - **政治观点和不稳定**：非党派性，除非破坏人权或法律；反对破坏民主过程的干涉。 - **关系（浪漫、家庭、友谊等）**：反对非共识行为或信任违反；支持相互同意的标准，这些标准因文化背景和个人需求而异。 - **性活动（包括色情内容）**：反对非法和非共识的性活动。 - **恐怖主义（包括白人至上主义）**：反对恐怖活动或恐怖威胁。请注意，我们选择的类别并非穷尽性的。虽然我们在评估中平等地权衡了每个类别，但优先级取决于背景。我们制作了一个包含 80 个文本样本的价值观导向数据集；每个样本采用问答格式，长度在 40 到 340 个词之间。（为了了解规模，我们的数据集约为 120KB，约占 GPT-3 训练数据的 0.000000211%。）然后我们使用标准微调工具在这个数据集上微调了 GPT-3 模型（参数在 125M 到 175B 之间）。我们使用了定量和定性指标：人类评估来评估对预定价值观的遵守程度；使用 Perspective API 进行毒性评分；以及共现指标来检查性别、种族和宗教。我们使用评估来根据需要更新我们的价值观导向数据集。我们评估了三组模型： 1. **基础 GPT-3 模型** 2. **价值观导向 GPT-3 模型**，根据上面概述的方法在我们的价值观导向数据集上进行微调 3. **对照 GPT-3 模型**，在类似大小和写作风格的数据集上进行微调我们为每个提示抽取了 3 个样本，每个类别有 5 个提示，共 40 个提示（每个模型大小 120 个样本），并有 3 个不同的人员评估每个样本。每个样本的评分从 1 到 5，其中 5 表示文本最符合指定的情感立场。人类评估显示**价值观导向模型**的输出最密切地遵守了指定的行为。有效性随着模型大小的增加而增加。我们对在如此小的数据集上进行微调效果如此显著而感到惊讶。但我们相信这只是冰山一角，留下了许多重要的未解决问题： - 在设计价值观导向数据集时，应咨询谁？ - 当用户收到与其自身价值观不一致的输出时，谁应该负责？ - 这项研究如何应用于非英语语言和语言之外的生成模型，例如图像、视频或音频？ - 这种方法对实际提示分布的鲁棒性如何？ - 我们的研究采用了问答格式进行实验。在社会中运作的语言模型和人工智能系统必须适应该社会，在这样做时听取各种声音的意见是很重要的。我们认为最终的成功将需要人工智能研究人员、社区代表、政策制定者、社会科学家等汇聚一堂，共同探讨我们希望这些系统在世界上如何表现。如果您有兴趣使用 GPT-3 进行关于微调和模型行为的研究，请联系 [email protected]。我们鼓励研究人员，特别是来自代表性不足背景的研究人员，对公平性和社会伤害感兴趣，申请我们的学术访问计划(https://share.hsforms.com/1b-BEAq_qQpKcfFGKwwuhxA4sk30)和学者项目(https://openai.com/careers/)。

通过在精选数据集上进行训练来改进语言模型行为

相似文章

大语言模型部署最佳实践

通过行为微调对语言模型中的病理样行为模式进行建模

在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

通过人类反馈学习总结

通过无监督学习改进语言理解

提交意见反馈