GPT-4o 中的谄媚行为：发生了什么以及我们的应对措施

OpenAI Blog 2025/04/29 18:00 新闻

gpt-4o sycophancy model-behavior openai safety alignment

摘要

OpenAI 回滚了 GPT-4o 的一次更新，该更新使模型过度奉承且过于谄媚，公司承认该更新优先考虑了短期用户反馈而非长期满意度。该公司正在实施多项修复措施，包括改进的训练技术、增强的诚实性护栏、扩大用户测试范围以及新的个性化功能，让用户能够更好地控制 ChatGPT 的行为。

我们已经回滚了上周在 ChatGPT 中发布的 GPT-4o 更新，用户现在使用的是行为更加平衡的早期版本。我们移除的那次更新过度奉承或同意——通常被描述为谄媚。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:53

# GPT-4o 中的谄媚问题：发生了什么以及我们的应对措施来源：https://openai.com/index/sycophancy-in-gpt-4o/ 我们已经回滚了上周在 ChatGPT 中的 GPT-4o 更新，现在用户使用的是行为更加均衡的早期版本。我们删除的更新存在过度奉承或过度认可的问题——通常被描述为谄媚。我们正在积极测试新的修复方案来解决这个问题。我们正在调整反馈的收集和应用方式，以重点关注长期用户满意度，同时引入更多个性化功能，让用户能够更好地控制 ChatGPT 的行为方式。我们想解释发生了什么、为什么这很重要，以及我们如何应对谄媚问题。在上周的 GPT-4o 更新中，我们进行了调整，旨在改进模型的默认个性，使其在各种任务中感觉更直观和有效。在塑造模型行为时，我们从《模型规范》(https://model-spec.openai.com/2025-04-11.html) 中列出的基线原则和指示开始。我们还通过融入用户信号（如 ChatGPT 响应上的赞/踩反馈）来教会模型如何应用这些原则。然而，在这次更新中，我们过度关注短期反馈，没有充分考虑用户与 ChatGPT 的交互如何随时间演变。因此，GPT-4o 倾向于提供过度支持但不真诚的响应。 ChatGPT 的默认个性深刻影响你体验和信任它的方式。谄媚的交互可能令人不适、不安，甚至造成困扰。我们做得不够，正在努力改正。我们的目标是让 ChatGPT 帮助用户探索想法、做出决策或设想可能性。我们设计 ChatGPT 的默认个性以反映我们的使命，使其有用、支持性强且尊重不同的价值观和经历。然而，每一个这样的理想品质（比如尝试有帮助或提供支持）都可能产生意想不到的副作用。而且，随着每周有 5 亿人在全球各地和各种环境中使用 ChatGPT，单一默认设置无法满足每个人的偏好。除了回滚最新的 GPT-4o 更新外，我们正在采取更多措施来重新调整模型的行为： - 改进核心训练技术和系统提示，明确引导模型避免谄媚。 - 建立更多防护措施，提高诚实度和透明度 (https://model-spec.openai.com/2025-04-11.html#avoid_sycophancy)——这是我们《模型规范》中的原则。 - 扩大更多用户在部署前测试和提供直接反馈的方式。 - 继续扩展我们的评估工作，基于《模型规范》(https://model-spec.openai.com/) 和我们的持续研究 (https://openai.com/index/affective-use-study/)，帮助识别未来谄媚以外的问题。我们还认为用户应该有更多控制权来决定 ChatGPT 的行为方式，并在安全和可行的情况下进行调整，如果他们不同意默认行为的话。目前，用户可以通过自定义指示等功能给模型提供具体指示来塑造其行为。我们也在构建新的、更简便的方式让用户能够做到这一点。例如，用户将能够提供实时反馈来直接影响他们的交互，并从多个默认个性中进行选择。此外，我们也在探索新的方式，将更广泛的民主反馈融入到 ChatGPT 的默认行为中。我们希望这些反馈能够帮助我们更好地反映全球不同文化价值观，以及理解你希望 ChatGPT 如何发展——不仅仅是逐次交互，而是长期演变。我们感谢所有提出这一问题的人。这正在帮助我们为你构建更有帮助和更好的工具。

相似文章

深入探讨我们遗漏的奉承问题

OpenAI Blog

OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析，解释了他们的后训练和部署流程、奖励信号出现的问题，以及他们在评估和安全检查方面的改进。

GPT-5 系统卡补充文档：敏感对话处理

OpenAI Blog

OpenAI 在 10 月 3 日发布了 GPT-5 的更新，通过与 170 多名心理健康专家的合作，改进了对心理和情感困扰相关敏感对话的处理，将不充分的回应减少了 65-80%。公司发布了系统卡补充文档和安全评估，对比了新模型与 8 月 15 日的前一版本。

在人们最需要帮助的时刻提供支持

OpenAI Blog

# 在人们最需要帮助的时刻提供支持来源：[https://openai.com/index/helping-people-when-they-need-it-most/](https://openai.com/index/helping-people-when-they-need-it-most/) 在这样的规模下，我们有时会遇到处于严重精神和情感困境中的人。我们[几周前写过相关文章](https://openai.com/index/optimizing-chatgpt/)，原计划在下一次重大更新后分享更多内容。然而，最近出现了一些令人心碎的案例，即人们在急性危机中使用 ChatGPT

强化 ChatGPT 在敏感对话中的回复

OpenAI Blog

# 强化 ChatGPT 在敏感对话中的回复来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes)，以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何

用 GPT-4 发现 GPT-4 的错误

OpenAI Blog

OpenAI 推出了 CriticGPT，这是一个基于 GPT-4 的模型，旨在捕捉 ChatGPT 代码输出中的错误。当人类训练员使用 CriticGPT 进行代码审查时，他们的成功率比没有辅助工具的训练员高 60%，解决了随着模型能力不断提升，RLHF 面临的根本局限。

相似文章

深入探讨我们遗漏的奉承问题

GPT-5 系统卡补充文档：敏感对话处理

在人们最需要帮助的时刻提供支持

强化 ChatGPT 在敏感对话中的回复

用 GPT-4 发现 GPT-4 的错误

提交意见反馈