强化 ChatGPT 在敏感对话中的回复

OpenAI Blog 新闻

摘要

# 强化 ChatGPT 在敏感对话中的回复 来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes),以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何

OpenAI 与 170 多位心理健康专家合作,提升了 ChatGPT 识别用户困境、同理心回应以及引导用户获取现实支持的能力——将不安全回复降低多达 80%。了解我们如何在敏感时刻让 ChatGPT 更安全、更具支持力。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:52

# 在敏感对话中加强 ChatGPT 的回应 来源:https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/ 我们最近更新了 ChatGPT 的默认模型(https://help.openai.com/en/articles/9624314-model-release-notes),以更好地识别和支持处于困境中的人们。今天我们分享了我们如何进行这些改进以及它们的表现如何。我们与具有真实临床经验的心理健康专家合作,教导模型更好地识别困境、缓和对话升级,并在适当时引导人们寻求专业帮助。我们还扩展了对危机热线的访问,将来自其他模型的敏感对话转向更安全的模型,并在长时间会话期间添加了温和的休息提醒。 我们认为 ChatGPT 可以为人们提供一个支持性的空间来处理他们的感受,并引导他们在适当时与朋友、家人或心理健康专业人士取得联系。我们最近模型更新中的安全改进着重于以下几个方面:1) 精神健康问题,如精神病或躁狂症;2) 自伤和自杀;3) 对人工智能的情感依赖。展望未来,除了我们对自杀和自伤的既有基准安全指标外,我们还将在未来模型发布的标准基准安全测试中添加情感依赖和非自杀性精神健康紧急情况。 这些更新建立在我们现有原则的基础上,该原则在我们的模型规范(https://model-spec.openai.com/2025-10-27.html)中概述。我们更新了模型规范,使我们一些长期目标更加明确:模型应支持和尊重用户的现实关系,避免确认可能与精神或情感困扰有关的无根据信念,安全且同理地响应潜在的妄想或躁狂迹象,并更密切关注潜在自伤或自杀风险的间接信号。 为了改进 ChatGPT 在每个优先领域的回应方式,我们遵循五个步骤的流程: - **定义问题** - 我们绘制不同类型的潜在伤害。 - **开始测量** - 我们使用评估、真实对话中的数据和用户研究等工具来了解风险在哪里以及如何出现。 - **验证我们的方法** - 我们与外部心理健康和安全专家一起审查我们的定义和政策。 - **缓解风险** - 我们对模型进行后期训练并更新产品干预措施以减少不安全的结果。 - **继续测量和迭代** - 我们验证缓解措施是否改进了安全性,并在需要时进行迭代。 作为这个流程的一部分,我们构建和完善详细的指南(称为"分类法"),说明敏感对话的属性以及理想和不希望出现的模型行为。这些帮助我们教导模型更恰当地响应,并在部署前后跟踪其性能。结果是一个更可靠地对显示精神病、躁狂症、自杀和自伤念头或对模型的不健康情感依赖迹象的用户做出良好回应的模型。 心理健康症状和情感困扰普遍存在于人类社会中,不断增长的用户基础意味着某些 ChatGPT 对话会包含这些情况。然而,触发安全问题的心理健康对话,如精神病、躁狂症或自杀想法,极其罕见。由于它们非常罕见,即使我们衡量它们的方式有微小差异,也可能对我们报告的数字产生重大影响。1(https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/#citation-bottom-1) 我们以下给出的当前生产流量中的患病率估计是我们目前最好的估计。随着我们继续完善分类法、测量方法成熟和用户群体行为变化,这些可能会发生重大变化。 鉴于相关对话的患病率非常低,我们不仅依靠真实世界的 ChatGPT 使用测量。我们还在部署前运行结构化测试(称为"离线评估"),专注于特别困难或高风险的场景。这些评估的设计足够具有挑战性,使我们的模型在它们上的表现还不完美,即示例是对抗性选择的,以高可能性引发不希望的回应。它们可以向我们展示进一步改进的机会,并通过专注于困难情况而不是典型情况,以及根据多个安全条件评分回应,帮助我们更精确地衡量进展。下面章节中报告的评估结果来自设计为不会"饱和"接近完美性能的评估,错误率不代表平均生产流量。 为了进一步加强我们的模型防护措施并了解人们如何使用 ChatGPT,我们定义了几个感兴趣的领域,并量化了它们的规模和相关的模型行为。在这三个领域中的每一个,我们都观察到生产流量、自动评估和由独立心理健康临床医生评分的评估中的显著模型行为改进。我们估计该模型现在在一系列心理健康相关领域中,不完全符合我们分类法下所需行为的回应频率降低了 65% 到 80%。 ## 精神健康紧急情况 我们的心理健康分类法旨在识别用户何时可能显示严重心理健康问题的迹象,如精神病和躁狂症,以及较轻微的信号,如孤立妄想。我们开始关注精神病和躁狂症,因为这些症状是相对常见的精神健康紧急情况,其症状在发生时往往非常强烈和严重。虽然抑郁症等症状相对普遍,其最急性表现已经通过我们防止自杀和自伤的工作得到解决。我们咨询的临床医生验证了我们的关注焦点。 - 我们估计最新的 GPT-5 更新在最近生产流量中将不完全符合所需行为的回应比率降低了 65%,针对与心理健康问题相关的具有挑战性的对话。2(https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/#citation-bottom-2) - 虽然如上所述,这些对话由于极为罕见而难以检测和测量,但我们的初步分析估计,在给定的一周内约 0.07% 的活跃用户和 0.01% 的消息表明与精神病或躁狂症相关的可能心理健康紧急情况迹象。3(https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/#citation-bottom-3) - 在具有挑战性的心理健康对话中,专家发现新的 GPT-5 模型(ChatGPT 的默认模型)相比 GPT-4o 减少了 39% 的不希望回应(n=677)。 - 在包含超过 1,000 个具有挑战性的心理健康相关对话的模型评估中,我们的新自动化评估将新的 GPT-5 模型评分为 92% 符合我们分类法下的所需行为,而之前的 GPT-5 模型为 27%。如上所述,这是一项旨在实现持续改进的具有挑战性的任务。 ## 自杀和自伤预防 我们已经建立在我们关于预防自杀和自伤的现有工作(https://openai.com/index/helping-people-when-they-need-it-most/)基础上,以检测用户何时可能经历自杀和自伤的念头或会表明对自杀感兴趣的汇总信号。因为这些对话极其罕见,检测具有自伤或自杀潜在指标的对话仍然是一个持续的研究领域,我们正在不断改进。 - 我们训练我们的模型安全地响应,包括引导人们获取专业资源,如危机热线。在极少数情况下,模型在这些敏感情况下的行为可能不如预期。随着我们推出额外的防护措施和改进的模型,我们观察到了不完全符合我们分类法下所需行为的模型回应比率估计降低了 65%。 - 虽然如上所述,这些对话由于极为罕见而难以检测和测量,但我们的初步分析估计,在给定的一周内约 0.15% 的活跃用户的对话包含潜在自杀计划或意图的明确指标,0.05% 的消息包含自杀意念或意图的明确或隐含指标。 - 在具有挑战性的自伤和自杀对话中,专家发现新的 GPT-5 模型相比 GPT-4o 减少了 52% 的不希望回答(n=630)。 - 在包含超过 1,000 个具有挑战性的自伤和自杀对话的模型评估中,我们的新自动化评估将新的 GPT-5 模型评分为 91% 符合我们的所需行为,而之前的 GPT-5 模型为 77%。 - 我们继续改进 GPT-5 在长对话中的可靠性。我们根据真实场景创建了一套新的具有挑战性的长对话,这些场景因其更高的失败可能性而被选中。我们估计我们的最新模型在更长的对话中保持了超过 95% 的可靠性,在我们之前提到的一个特别具有挑战性的设置中有所改进(https://openai.com/index/helping-people-when-they-need-it-most/)。 在对要求自伤或自杀说明的具有挑战性的长对话的评估中,gpt-5-oct-3 更安全,其安全性在长对话中表现得更好。 ## 情感依赖 我们的情感依赖分类法(建立在我们之前在这个领域的工作(https://cdn.openai.com/papers/15987609-5f71-433c-9972-e91131f399a1/openai-affective-use-study.pdf)基础上)区分了健康的参与和令人担忧的使用模式,如某人显示对模型的排他性依附潜在迹象,这是以牺牲现实关系、他们的福祉或义务为代价。 - 我们估计最新更新在最近生产流量中将不符合我们情感依赖分类法下所需行为的模型回应比率降低了约 80%。 - 虽然如上所述,这些对话由于极为罕见而难以检测和测量,但我们的初步分析估计,在给定的一周内约 0.15% 的活跃用户和 0.03% 的消息表明对 ChatGPT 可能增高的情感依附水平。 - 在表示情感依赖的具有挑战性的对话中,专家发现新的 GPT-5 模型相比 GPT-4o 减少了 42% 的不希望回答(n=507)。 - 在包含超过 1,000 个表示情感依赖的具有挑战性对话的模型评估中,我们的自动化评估将新的 GPT-5 模型评分为 97% 符合我们的所需行为,而之前的 GPT-5 模型为 50%。 对于表示情感依赖的对话,我们教导我们的模型鼓励现实联系。 对于涉及妄想信念的对话,我们教导我们的模型安全、同理地响应,并避免确认无根据的信念。 ## 与全球医生网络合作 我们建立了全球医生网络——一个包括来自 60 个国家的近 300 名医生和心理学家的广泛池子——我们用它来直接为我们的安全研究提供信息并代表全球观点。其中 170 多名临床医生(特别是精神病医生、心理学家和初级保健医生)在过去几个月中通过以下一种或多种方式支持了我们的研究: - 为与心理健康相关的提示编写理想回应 - 创建模型回应的定制临床知情分析 - 评估来自不同模型的模型回应的安全性 - 对我们的方法提供高级指导和反馈 在这些审查中,临床医生观察到最新模型的响应比早期版本更恰当和一致。 作为这项工作的一部分,精神病医生和心理学家审查了 1,800 多个涉及严重心理健康情况的模型回应,并比较了新的 GPT-5 聊天模型与先前模型的回应。这些专家发现新模型与 GPT-4o 相比有了实质性改进,在所有类别中不希望回应减少了 39-52%。这种定性反馈与我们在推出新模型时在生产流量中观察到的定量改进相呼应。 与任何复杂话题一样,即使是专家有时也对最佳回应方式意见不一。我们通过评估者间一致性——专家对模型回应是否理想或不理想的看法的一致频率——来衡量这种差异。这帮助我们更好地理解专业意见的差异,以及如何将模型行为与声音临床判断对齐。我们在专家临床医生评分与心理健康、情感依赖和自杀相关的模型回应之间观察到中等的评估者间可靠性,但在某些情况下也看到专家之间的分歧,评估者间一致性范围从 71-77%。 与我们在 HealthBench(https://openai.com/index/healthbench/)上的工作类似,我们与全球医生网络合作制作了有针对性的评估,我们在内部使用这些评估来评估模型在心理健康背景下的性能,包括在发布前的新模型中。 这项工作对我们来说非常重要,我们感谢世界各地许多继续指导它的心理健康专家。我们取得了有意义的进展,但还有更多工作要做。我们将继续推进我们的分类法和技术系统,以衡量和加强模型在这些和未来领域的行为。因为这些工具随着时间的推移而演变,未来的测量可能无法与过去的直接比较,但它们仍然是跟踪我们方向和进展的重要方式。 您可以在 GPT-5 系统卡(https://openai.com/index/gpt-5-system-card-sensitive-conversations/)的附录中阅读有关此工作的更多信息。

相似文章

在人们最需要帮助的时刻提供支持

OpenAI Blog

# 在人们最需要帮助的时刻提供支持 来源:[https://openai.com/index/helping-people-when-they-need-it-most/](https://openai.com/index/helping-people-when-they-need-it-most/) 在这样的规模下,我们有时会遇到处于严重精神和情感困境中的人。我们[几周前写过相关文章](https://openai.com/index/optimizing-chatgpt/),原计划在下一次重大更新后分享更多内容。然而,最近出现了一些令人心碎的案例,即人们在急性危机中使用 ChatGPT

为所有人打造更有帮助的 ChatGPT 体验

OpenAI Blog

OpenAI 宣布启动为期 120 天的计划,旨在提升 ChatGPT 在帮助处于危机中的人群方面的能力。该计划重点关注心理健康支持、紧急服务连接和青少年保护,由人工智能与幸福专家委员会和拥有 250 多名医生的全球医生网络提供指导。

GPT-5 系统卡补充文档:敏感对话处理

OpenAI Blog

OpenAI 在 10 月 3 日发布了 GPT-5 的更新,通过与 170 多名心理健康专家的合作,改进了对心理和情感困扰相关敏感对话的处理,将不充分的回应减少了 65-80%。公司发布了系统卡补充文档和安全评估,对比了新模型与 8 月 15 日的前一版本。

我们为 ChatGPT 优化的方向

OpenAI Blog

# 我们为 ChatGPT 优化的方向 来源: [https://openai.com/index/optimizing-chatgpt/](https://openai.com/index/optimizing-chatgpt/) OpenAI 我们设计 ChatGPT 来帮助你取得进步、学习新知识和解决问题。我们构建 ChatGPT 是为了帮助你以你想要的所有方式发展。为了取得进步、学习新知识或解决问题——然后回到你的生活。我们的目标不是吸引你的注意力,而是帮助你合理使用它。我们不是通过花费的时间来衡量成功,而是