帮助ChatGPT更好识别敏感对话中的语境

OpenAI Blog 2026/05/14 00:00 产品

safety sensitive-conversations context-recognition chatgpt openai mental-health harm-prevention

摘要

OpenAI为ChatGPT引入安全更新，帮助它在敏感对话中随时间更好地识别细微的痛苦或有害意图线索，从而实现更谨慎的回应和缓和局势。

了解新的ChatGPT安全更新如何改善敏感对话中的语境感知，帮助随时间检测风险并更安全地回应。

查看原文

查看缓存全文

缓存时间: 2026/05/14 18:22

# 帮助ChatGPT更好地识别敏感对话中的上下文来源：https://openai.com/index/chatgpt-recognize-context-in-sensitive-conversations/ 每天都有许多人带着自己关心的问题来找ChatGPT——从日常琐事到更为私密或复杂的话题。在数以亿计的交互中，有些对话涉及正在经历困难或痛苦的人。我们设计的系统会在这些时刻谨慎回应，包括提供危机支持资源，并在需要时帮助他们联系信任的人 (https://openai.com/index/introducing-trusted-contact-in-chatgpt/)。 **今天，我们分享关于安全更新的更多细节，这些更新帮助ChatGPT更好地识别风险可能随时间逐渐显现的情况——通过捕捉细微或逐步演变的信号，并利用这些上下文信息给出更安全的回应。**这有助于ChatGPT区分每天发生的数亿次安全交互与极少数需要额外谨慎对待的情况，从而更细致地回应——例如，缓和局势、拒绝提供有害细节，或引导用户转向更安全的选择。这些改进建立在我们多年工作的基础之上，包括模型训练、评估、监控系统，以及与心理健康和安全专家超过两年的合作 (https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/)。 ## 为什么上下文在敏感对话中很重要在敏感对话中，上下文可能和单条消息同样重要。一个单独看来普通或模棱两可的请求，当与之前出现的痛苦迹象或潜在有害意图放在一起解读时，可能会承载截然不同的含义。为了做出适当回应，我们训练ChatGPT根据周围上下文识别潜在的有害意图，以便拒绝请求、缓和局势，并引导用户寻求支持。这些情况并不常见，但正确应对至关重要。我们的目标是帮助ChatGPT在必要时关联相关信号，同时避免在普通对话中过度反应。我们这项工作的重点集中在急性场景，包括自杀、自伤和伤害他人。在与心理健康专家的合作下，我们更新了模型策略和训练，以提高ChatGPT识别在对话过程中逐渐出现的警示信号的能力，并利用这些上下文信息做出更谨慎的回应。在这些罕见的高风险情况下，ChatGPT能更好地区分良性请求和可能预示较高伤害风险的请求。这建立在我们安全完成方法 (https://openai.com/index/language-model-safety-and-misuse/)的基础上，该方法旨在拒绝用户请求中不安全的部分，并在可以安全回应的范围内谨慎作答。目标是帮助模型对上下文更适当地做出反应，在对话中出现伤害信号时提高谨慎程度，同时在良性情况下继续保持有帮助的回应。 ## 跨对话提升安全性有些安全风险可能跨越多个独立的对话。一次对话可能包含潜在有害意图的细微迹象，而另一次对话则可能包含只有在结合之前的上下文时才会引发担忧的相关请求。如果没有这些与安全相关的上下文，后面的对话——以及其中可能重要的警示信号——就可能显得无害。在我们长期致力于增强ChatGPT识别这些痛苦迹象能力的基础上，我们开发了"安全摘要"：简短、事实性的笔记，记录之前与安全相关的上下文，在罕见的高风险情况下可能至关重要。这些摘要由一个专为安全推理任务训练的模型生成，范围狭窄、仅保留有限时间，并且只在涉及严重安全问题时才使用。它们旨在捕捉事实性的安全上下文，而非作为通用个性化或长期记忆。如我们上面所讨论的，我们还训练ChatGPT更谨慎地使用这些上下文，以便更好地识别何时需要额外谨慎并做出适当回应——例如，缓和局势、拒绝提供细节，或引导用户转向更安全的选择。 ## 与心理健康专家合作我们与全球医生网络 (https://openai.com/index/introducing-chatgpt-health/)中的心理健康专业人士——包括具备法医心理学、自杀预防和自伤专业知识的心理医生和心理学家——合作开发了这些系统。这些专家帮助我们决定了何时应创建安全摘要、多少之前的上下文可能是相关的，以及模型在回应时应考虑该上下文多长时间。他们的意见使这项工作基于真实世界的专业知识，并在敏感情况下支持更恰当的回应。 ## 衡量改进这些更新帮助ChatGPT更好地识别对话内部以及跨对话的潜在有害意图模式。当令人担忧的信号逐渐出现时，模型能够更好地识别该模式并更安全地回应。在专门设计用来衡量挑战性案例性能的内部评估中，这些更新显著提高了在风险随时间变得更清晰场景中的安全回应。这些测试衡量了在模拟高风险情况的对话中，模型给出预期安全回应的频率。在长单次对话场景中，安全回应性能在自杀和自伤案例中提升了50%，在伤害他人案例中提升了16%。这意味着模型更有可能识别出对话前文如何改变后续请求的含义，并做出适当回应。我们还测试了跨多个对话和多个模型的性能，以确保这些改进随着模型演变而保持有效。在GPT‑5.5 Instant（ChatGPT当前默认模型）上，安全回应性能在伤害他人案例中提升了52%，在自杀和自伤案例中提升了39%。我们还评估了安全摘要本身的质量。在超过4000项评估中，安全摘要的平均安全相关性得分为4.93（满分5分），事实准确性得分为4.34（满分5分），表明它们通常准确且聚焦于最重要的安全上下文。最后，我们测试了添加这些安全上下文是否会降低普通对话的质量。在我们的内部测试中，日常聊天的回应保持广泛可比，用户对带或不带安全摘要的回应没有表现出有意义的偏好。 ## 展望未来帮助AI系统识别那些只有随着时间推移才变得清晰的风险，是一个长期而困难的挑战。信号可能很细微，分散在多条消息中，或隐藏在普通对话中。我们将继续改进ChatGPT识别那些罕见但重要时刻并做出适当回应的能力。目前，这项工作聚焦于自伤和伤害他人场景。未来，我们可能会探索类似方法是否可以在精心设置防护措施的情况下，应用于其他高风险领域，如生物学或网络安全。这仍然是一个持续的优先事项，随着我们的模型和理解不断进步，我们将继续加强安全防护。了解更多关于我们的安全和心理健康工作：

相似文章

强化 ChatGPT 在敏感对话中的回复

OpenAI Blog

# 强化 ChatGPT 在敏感对话中的回复来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes)，以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何

在人们最需要帮助的时刻提供支持

OpenAI Blog

# 在人们最需要帮助的时刻提供支持来源：[https://openai.com/index/helping-people-when-they-need-it-most/](https://openai.com/index/helping-people-when-they-need-it-most/) 在这样的规模下，我们有时会遇到处于严重精神和情感困境中的人。我们[几周前写过相关文章](https://openai.com/index/optimizing-chatgpt/)，原计划在下一次重大更新后分享更多内容。然而，最近出现了一些令人心碎的案例，即人们在急性危机中使用 ChatGPT

为所有人打造更有帮助的 ChatGPT 体验

OpenAI Blog

OpenAI 宣布启动为期 120 天的计划，旨在提升 ChatGPT 在帮助处于危机中的人群方面的能力。该计划重点关注心理健康支持、紧急服务连接和青少年保护，由人工智能与幸福专家委员会和拥有 250 多名医生的全球医生网络提供指导。

GPT-5 系统卡补充文档：敏感对话处理

OpenAI Blog

OpenAI 在 10 月 3 日发布了 GPT-5 的更新，通过与 170 多名心理健康专家的合作，改进了对心理和情感困扰相关敏感对话的处理，将不充分的回应减少了 65-80%。公司发布了系统卡补充文档和安全评估，对比了新模型与 8 月 15 日的前一版本。

我们为 ChatGPT 优化的方向

OpenAI Blog

# 我们为 ChatGPT 优化的方向来源: [https://openai.com/index/optimizing-chatgpt/](https://openai.com/index/optimizing-chatgpt/) OpenAI 我们设计 ChatGPT 来帮助你取得进步、学习新知识和解决问题。我们构建 ChatGPT 是为了帮助你以你想要的所有方式发展。为了取得进步、学习新知识或解决问题——然后回到你的生活。我们的目标不是吸引你的注意力，而是帮助你合理使用它。我们不是通过花费的时间来衡量成功，而是

相似文章

强化 ChatGPT 在敏感对话中的回复

在人们最需要帮助的时刻提供支持

为所有人打造更有帮助的 ChatGPT 体验

GPT-5 系统卡补充文档：敏感对话处理

我们为 ChatGPT 优化的方向

提交意见反馈