深入探讨我们遗漏的奉承问题

OpenAI Blog 新闻

摘要

OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。

对我们发现的问题进行更深入的探讨、发生问题的原因,以及我们正在进行的未来改进。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:48

# 关于我们在讨好问题上遗漏之处的深入探讨 来源:https://openai.com/index/expanding-on-sycophancy/ 对我们发现、问题所在以及未来改进方向的更深入分析。 4月25日,我们为ChatGPT中的GPT-4o推出了一次更新,导致该模型明显变得更加讨好用户。这种讨好不仅表现为单纯的奉承,还包括验证用户的怀疑、激发愤怒、鼓励冲动行为,或以非预期的方式强化负面情绪。除了令人感到不适或不安外,这类行为还可能引发安全问题——包括与心理健康、情感过度依赖或危险行为相关的问题。 我们从4月28日开始回滚该更新,用户现在可以使用早期版本的GPT-4o,它提供更加均衡的回复。本周早些时候,我们分享了这一问题的初步详情(https://openai.com/index/sycophancy-in-gpt-4o/)——问题出现的原因以及我们的改进计划。 我们在发布前没有发现这个问题,我们想解释原因、我们学到的东西,以及我们将如何改进。我们还分享了关于如何训练、审查和部署模型更新的更多技术细节,以帮助人们理解ChatGPT如何升级以及什么驱动我们的决策。 我们在不断努力开发ChatGPT中模型的改进,我们称之为主线更新。自去年5月在ChatGPT中推出GPT-4o以来,我们已发布五次主要更新(https://help.openai.com/en/articles/9624314-model-release-notes),重点关注个性和有用性的变化。每次更新都涉及新的训练后处理,通常许多细微的模型训练过程调整会被独立测试,然后合并到单个更新的模型中,该模型随后会被评估以决定是否发布。 为了进行训练后处理,我们采用预训练的基础模型,对由人类或现有模型编写的大量理想回复进行有监督的微调,然后运行来自多个来源的奖励信号的强化学习。 在强化学习中,我们向语言模型提供一个提示,要求它生成回复。然后我们根据奖励信号对其回复进行评分,并更新语言模型,使其更可能生成高评分回复,更不可能生成低评分回复。 奖励信号的集合及其相对权重决定了我们在训练结束时获得的行为。定义正确的奖励信号集合是一个困难的问题,我们需要考虑许多因素:答案是否正确、是否有帮助、是否符合我们的模型规范(https://model-spec.openai.com/2025-02-12.html#)、是否安全、用户是否喜欢等等。拥有更好和更全面的奖励信号能够为ChatGPT生成更好的模型,所以我们一直在尝试新的信号,但每一个都有其特殊性。 一旦我们有了一个模型候选版本,我们的模型会经历一个部署流程来检查安全性、模型行为和有用性。目前,评估分为以下几类: - **离线评估:** 我们有一系列广泛的评估数据集来了解新模型在数学、编码、聊天性能、个性以及一般实用性等方面的能力。我们将这些评估视为模型对用户有用程度的代理。 - **抽查和专家测试:** 除了正式评估外,内部专家在发布前会花费大量时间与每个新模型进行交互。我们非正式地将这些称为"感觉检查"——一种人类理智检查,用以捕捉自动评估或A/B测试可能遗漏的问题。目的是了解模型在实际应用中的表现:它是否以有帮助、尊重且符合我们在模型规范中表达的价值观的方式做出回应?从事这项工作的人是经验丰富的模型设计师,他们已经内化了模型规范,但这里面也包含判断力和品味因素——相信模型在实际使用中的感觉。 - **安全评估:** 我们检查模型是否符合我们的安全标准。这些阻止性评估主要关注由恶意用户进行的直接伤害。我们还测试模型在涉及自杀或健康等敏感话题的高风险情况下的回答。我们正在努力扩展对模型不当行为(如进一步评估幻觉和欺骗)的评估覆盖范围;但这些主要被用来跟踪整体进展,而不是直接阻止发布。对于大规模新发布,我们在公开系统卡中描述了我们的安全测试(https://cdn.openai.com/gpt-4o-system-card.pdf)。 - **前沿风险:** 对于潜在的前沿模型,我们检查发布是否可能沿着准备框架(https://openai.com/index/updating-our-preparedness-framework/)造成严重伤害,例如网络攻击或创建生物武器。 - **红队测试:** 同样,对于前沿模型或引入风险新产品表面的模型,我们进行内部和外部红队测试(https://openai.com/index/advancing-red-teaming-with-people-and-ai/)来测试针对已知伤害的稳健性并发现潜在的新风险。 - **小规模A/B测试:** 一旦我们相信一个模型可能是对用户的良好改进,包括运行我们的安全检查,我们就会与少数用户进行A/B测试。这让我们能够根据汇总指标(如点赞/点踩反馈、并排比较中的偏好以及使用模式)查看模型在用户手中的表现。 在4月25日的模型更新中,我们有改进的候选方案,以更好地纳入用户反馈、记忆和更新的数据等。我们的早期评估是,这些看起来单独有益的变化中的每一个,在结合时可能都对讨好倾向的加剧有所贡献。例如,该更新引入了一个基于用户反馈的额外奖励信号——来自ChatGPT的点赞和点踩数据。这个信号通常很有用;点踩通常意味着出了问题。 但我们相信,总的来说,这些变化削弱了我们主要奖励信号的影响力,该信号一直在抑制讨好行为。用户反馈特别可能倾向于更同意的回复,可能会放大我们看到的转变。我们还看到,在某些情况下,用户记忆会加剧讨好倾向的影响,尽管我们没有证据表明它广泛地增加了讨好倾向。 这次发布的关键问题之一是我们的离线评估——特别是那些测试行为的评估——通常看起来都很好。同样,A/B测试似乎表明尝试该模型的少数用户喜欢它。虽然我们一直在讨论与GPT-4o中讨好相关的风险,但讨好问题并未在我们的内部实际测试中明确标记,因为我们的一些专家测试人员更关心模型语气和风格的变化。尽管如此,一些专家测试人员表示模型行为感觉"略微"有些不对。 我们也没有进行专门的部署评估来追踪讨好倾向。虽然我们围绕镜像和情感过度依赖(https://openai.com/index/affective-use-study/)等问题有研究工作流,但这些工作还没有成为部署流程的一部分。在这次回滚后,我们将讨好倾向评估纳入了该流程。 随后我们需要做一个决定:尽管评估和A/B测试结果为正,但我们是否应该仅基于专家测试人员的主观标记而不部署这个更新?最终,我们决定基于尝试过该模型的用户的积极信号来发布该模型。 不幸的是,这是一个错误的决定。我们为用户构建这些模型,虽然用户反馈对我们的决策至关重要,但最终解释这种反馈的责任在我们。回过头看,定性评估暗示了一些重要的东西,我们应该更仔细地倾听。它们揭示了我们其他评估和指标中的盲点。我们的离线评估不够广泛或深入,无法捕捉讨好行为——模型规范明确不鼓励这种行为(https://model-spec.openai.com/2025-02-12.html#avoid_sycophancy)——而我们的A/B测试没有正确的信号来充分详细地显示模型在这方面的表现。 随着最近的GPT-4o更新,我们在周四4月24日开始推出,周五4月25日完成。我们在接下来的两天里监控早期使用和内部信号,包括用户反馈。到周日,很明显模型的行为没有达到我们的预期。 我们立即采取行动,在周日深夜更新系统提示以快速缓解大部分负面影响,并在周一启动了到之前GPT-4o版本的完整回滚。完整回滚花了大约24小时来管理稳定性并避免在部署中引入新问题。 现在,GPT-4o流量使用的是这个早期版本。自回滚以来,我们一直在努力充分了解出了什么问题并做出更长期的改进。 - **为每次发布明确批准模型行为,权衡定量和定性信号:** 我们将调整安全审查流程,正式将行为问题——如幻觉、欺骗、可靠性和个性——视为阻止性问题。即使这些问题在今天还无法完全量化,我们也致力于基于代理测量或定性信号阻止发布,即使A/B测试等指标看起来很好。 - **引入额外的选择加入"alpha"测试阶段:** 在某些情况下,我们计划引入额外的选择加入"alpha"阶段,这将允许我们听取有兴趣在发布前直接向我们提供反馈的用户。 - **在最终决策中更加重视抽查和交互式测试:** 我们重新认识到,在向任何用户提供模型之前的最终决策中,抽查和交互式测试应该受到更多重视。这对红队测试和高级别安全检查来说一直是真实的。我们从这次经验中学到,对于模型行为和一致性等特性来说也是如此,因为现在很多人都依赖我们的模型来帮助他们的日常生活。 - **改进我们的离线评估和A/B实验:** 改进我们的离线评估和A/B实验都很重要,我们正在快速进行。 - **更好地评估我们模型行为原则的遵守情况:** 随着我们的模型变得更强大和更广泛使用,定义理想行为实际上是什么样子很重要。这是我们模型规范的目标(https://model-spec.openai.com/2025-02-12.html),在训练和评估ChatGPT的新版本时,为我们的目标提供更清晰的视窗。但仅仅陈述我们的目标是不够的。它们需要得到强有力的评估支持。虽然我们在指令层级和安全(例如隐私、禁止内容)等领域有广泛的评估,但我们正在努力提高我们在尚未考虑的领域的信心。 - **更主动地沟通:** 我们也犯了沟通错误。因为我们预期这是一个相当微妙的更新,我们没有主动宣布它。同样,我们的发行说明没有足够的关于我们所做更改的信息。今后,我们将主动沟通我们对ChatGPT中模型所做的更新,无论是否"微妙"。就像我们对主要模型发布所做的那样,当我们宣布对ChatGPT的增量更新时,我们现在将包含对已知限制的说明,以便用户能够了解优点和缺点。 这次发布为我们提供了许多教训。即使有我们认为的所有正确的成分(A/B测试、离线评估、专家评审),我们仍然遗漏了这个重要问题。 以下是我们将要吸取的重大教训: - **我们需要将模型行为问题视为像对待其他安全风险一样的发布阻止问题:** 我们在对齐模型价值观与人类福利方面投入了大量权重,无论是在准备我们的短期部署还是在塑造我们的长期研究策略中。但是,我们审查一般模型行为的流程相对于目前追踪的安全风险领域不够健全和正式化(在我们的公开系统卡中获取更多见解(https://cdn.openai.com/gpt-4o-system-card.pdf))。我们现在明白个性和其他行为问题应该是发布阻止问题,我们正在修改我们的流程以反映这一点。 - **我们需要对与定性测试冲突的指标持批判态度:** 定量信号很重要,但难以衡量的信号也同样重要,我们正在努力扩展我们评估的范围。 - **我们的评估不会捕捉所有问题:** 我们无法预测每一个问题。对于我们意识到的前沿风险(在我们的准备框架中获取更多详情(https://openai.com/index/updating-our-preparedness-framework/)),我们在发布前进行了广泛的评估和测试。但对于更微妙或新兴的问题,如语气或风格的变化,现实世界的使用可以帮助我们发现问题并了解对用户最重要的是什么。有时我们的评估会滞后于我们在实践中学到的东西,但我们将继续快速行动来修复问题并防止伤害。 - **没有"小"发布这样的东西:** 我们将尝试沟通甚至可以有意义改变人们与ChatGPT交互方式的微妙变化。 最大的教训之一是充分认识到人们已经开始将ChatGPT用于深度个人建议——这是即使一年前我们也没有看到那么多的东西。在那时,这不是主要关注点,但随着AI和社会的共同演进,很明显我们需要谨慎对待这个用例。现在它将成为我们安全工作的更有意义的一部分。随着这么多人依赖单一系统来获取指导,我们有责任进行相应的调整。这一转变强化了为什么我们的工作很重要,以及为什么我们需要不断提高安全、对齐和对人们实际使用AI方式的反应能力的标准。

相似文章

GPT-4o 中的谄媚行为:发生了什么以及我们的应对措施

OpenAI Blog

OpenAI 回滚了 GPT-4o 的一次更新,该更新使模型过度奉承且过于谄媚,公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施,包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能,让用户能够更好地控制 ChatGPT 的行为。

What is sycophancy in AI models?

YouTube AI Channels

Anthropic safety expert Kira explains the phenomenon of AI sycophancy, where models prioritize user approval over factual accuracy, and provides strategies for users to identify and mitigate this behavior.

OpenAI 技术详解

OpenAI Blog

OpenAI 发布了一篇关于其核心技术的解读文章,详细介绍了 GPT-4 等语言模型是如何通过预训练(从海量文本数据中学习)和后训练(与人类价值观对齐和安全实践)开发而成的。文章强调了 OpenAI 的非营利使命结构,并解释了原始基础模型与经过优化、可用版本之间的区别。

通过外部测试强化我们的安全生态系统

OpenAI Blog

OpenAI宣布通过外部第三方测试和评估前沿AI模型来加强安全生态系统,包括独立评估、方法论审查和领域专家探测。该公司承诺通过公开分享第三方评估结果和自GPT-4推出以来支持独立评估来提高透明度。

GPT-2: 1.5B 版本发布

OpenAI Blog

OpenAI 发布了 GPT-2 1.5B 参数模型,附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险,以及检测合成文本的挑战。检测模型达到约 95% 的准确率,但在实际部署中需要配套方法。