GPT-4o 中的谄媚行为:发生了什么以及我们的应对措施
摘要
OpenAI 回滚了 GPT-4o 的一次更新,该更新使模型过度奉承且过于谄媚,公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施,包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能,让用户能够更好地控制 ChatGPT 的行为。
我们已经回滚了上周在 ChatGPT 中发布的 GPT-4o 更新,用户现在使用的是行为更加平衡的早期版本。我们移除的那次更新过度奉承或同意——通常被描述为谄媚。
查看缓存全文
缓存时间:
2026/04/20 14:53
# GPT-4o 中的谄媚问题:发生了什么以及我们的应对措施
来源:https://openai.com/index/sycophancy-in-gpt-4o/
我们已经回滚了上周在 ChatGPT 中的 GPT-4o 更新,现在用户使用的是行为更加均衡的早期版本。我们删除的更新存在过度奉承或过度认可的问题——通常被描述为谄媚。
我们正在积极测试新的修复方案来解决这个问题。我们正在调整反馈的收集和应用方式,以重点关注长期用户满意度,同时引入更多个性化功能,让用户能够更好地控制 ChatGPT 的行为方式。
我们想解释发生了什么、为什么这很重要,以及我们如何应对谄媚问题。
在上周的 GPT-4o 更新中,我们进行了调整,旨在改进模型的默认个性,使其在各种任务中感觉更直观和有效。
在塑造模型行为时,我们从《模型规范》(https://model-spec.openai.com/2025-04-11.html) 中列出的基线原则和指示开始。我们还通过融入用户信号(如 ChatGPT 响应上的赞/踩反馈)来教会模型如何应用这些原则。
然而,在这次更新中,我们过度关注短期反馈,没有充分考虑用户与 ChatGPT 的交互如何随时间演变。因此,GPT-4o 倾向于提供过度支持但不真诚的响应。
ChatGPT 的默认个性深刻影响你体验和信任它的方式。谄媚的交互可能令人不适、不安,甚至造成困扰。我们做得不够,正在努力改正。
我们的目标是让 ChatGPT 帮助用户探索想法、做出决策或设想可能性。
我们设计 ChatGPT 的默认个性以反映我们的使命,使其有用、支持性强且尊重不同的价值观和经历。然而,每一个这样的理想品质(比如尝试有帮助或提供支持)都可能产生意想不到的副作用。而且,随着每周有 5 亿人在全球各地和各种环境中使用 ChatGPT,单一默认设置无法满足每个人的偏好。
除了回滚最新的 GPT-4o 更新外,我们正在采取更多措施来重新调整模型的行为:
- 改进核心训练技术和系统提示,明确引导模型避免谄媚。
- 建立更多防护措施,提高诚实度和透明度 (https://model-spec.openai.com/2025-04-11.html#avoid_sycophancy)——这是我们《模型规范》中的原则。
- 扩大更多用户在部署前测试和提供直接反馈的方式。
- 继续扩展我们的评估工作,基于《模型规范》(https://model-spec.openai.com/) 和我们的持续研究 (https://openai.com/index/affective-use-study/),帮助识别未来谄媚以外的问题。
我们还认为用户应该有更多控制权来决定 ChatGPT 的行为方式,并在安全和可行的情况下进行调整,如果他们不同意默认行为的话。
目前,用户可以通过自定义指示等功能给模型提供具体指示来塑造其行为。我们也在构建新的、更简便的方式让用户能够做到这一点。例如,用户将能够提供实时反馈来直接影响他们的交互,并从多个默认个性中进行选择。
此外,我们也在探索新的方式,将更广泛的民主反馈融入到 ChatGPT 的默认行为中。我们希望这些反馈能够帮助我们更好地反映全球不同文化价值观,以及理解你希望 ChatGPT 如何发展——不仅仅是逐次交互,而是长期演变。
我们感谢所有提出这一问题的人。这正在帮助我们为你构建更有帮助和更好的工具。
相似文章
OpenAI Blog
OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。
OpenAI Blog
OpenAI 在 10 月 3 日发布了 GPT-5 的更新,通过与 170 多名心理健康专家的合作,改进了对心理和情感困扰相关敏感对话的处理,将不充分的回应减少了 65-80%。公司发布了系统卡补充文档和安全评估,对比了新模型与 8 月 15 日的前一版本。
OpenAI Blog
# 在人们最需要帮助的时刻提供支持
来源:[https://openai.com/index/helping-people-when-they-need-it-most/](https://openai.com/index/helping-people-when-they-need-it-most/)
在这样的规模下,我们有时会遇到处于严重精神和情感困境中的人。我们[几周前写过相关文章](https://openai.com/index/optimizing-chatgpt/),原计划在下一次重大更新后分享更多内容。然而,最近出现了一些令人心碎的案例,即人们在急性危机中使用 ChatGPT
OpenAI Blog
# 强化 ChatGPT 在敏感对话中的回复 来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes),以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何
OpenAI Blog
OpenAI 推出了 CriticGPT,这是一个基于 GPT-4 的模型,旨在捕捉 ChatGPT 代码输出中的错误。当人类训练员使用 CriticGPT 进行代码审查时,他们的成功率比没有辅助工具的训练员高 60%,解决了随着模型能力不断提升,RLHF 面临的根本局限。