AI安全的另一半
摘要
文章批评AI安全领域专注于灾难性风险,却忽视了像ChatGPT这样的聊天机器人对日常心理健康的危害。引用OpenAI自身数据,数百万用户表现出精神病、躁狂或自杀意念的迹象,却仅被重定向,未进行硬性拦截。
暂无内容
查看缓存全文
缓存时间:
2026/05/14 06:21
# AI安全的另一半
来源:https://personalaisafety.com/p/the-other-half-of-ai-safety
每周,大约有120万到300万ChatGPT用户(相当于一个小国家的人口)表现出精神病、躁狂症、自杀计划或对模型不健康的情绪依赖迹象。该范围的下限仅指自杀计划指标,上限则包括了OpenAI标记的所有三类情况,而该公司并未说明这些类别是否相互重叠。
这些数据来自OpenAI自身(https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/)。没有独立审计,没有时间序列,没有公开的方法论,因此我们无从得知真实数字是否更高、是否在增长,也无从与其他前沿模型进行比较——这些模型均未发布同等数据。
处于困境中的人会使用他们能接触到的任何通讯工具,而ChatGPT如今已是全球使用最广泛的工具之一。关键在于当实验室检测到这些状态时,它们会怎么做。
我开始撰写关于个人AI安全的文章,是因为AI安全领域关注的重点与普通用户在日常生活中实际经历的情况之间存在脱节。以下是两者的快速概述。
AI安全领域将灾难性风险视为优先事项,大部分投资都集中于此。而日常认知和心理健康危害则像是一个脚注。
我不理解的是这一点。涉及大规模杀伤或CBRN内容会得到硬性阻断:模型拒绝回答,对话终止,用户无论如何重新措辞都无法绕过。而自杀念头则得到软性引导:一个危机热线链接,然后对话继续。Adam Raine被ChatGPT引导至危机资源超过100次(https://cdn.arstechnica.net/wp-content/uploads/2025/11/Raine-v-OpenAI-Answer-11-25-25.pdf),根据OpenAI自身的法庭文件,同时同一次对话据称帮助他完善了自杀方法。引导并继续的协议是否失效,目前正由法庭裁决。而它仍然是当前的协议。
为什么心理健康危机不被视为一个门控类别——即对话完全停止,用户被转接给真人?这是我找不到具体答案的众多问题之一。

这里要论证的是:为灾难性风险构建的安全框架,在认知伤害领域被扩展为监控而非门控,这种扩展感觉不完整且不充分。实验室只衡量他们被迫衡量的东西。门控决策反映的是他们认为不可接受的行为。
令人失望的是,当前“不可发布”的行为集合中不包含任何认知伤害,无论其严重程度如何。这是一个结构性决策,并且没有明确迹象表明政策正在更接近迫使实验室改变行为。除非情况改变,“AI安全”和“个人AI安全”描述的是两种不同的承诺,即便它们出现在同一份系统卡(https://openai.com/index/gpt-5-system-card-sensitive-conversations/)的同一标题下。
这些事情实际上并不新鲜。早在ChatGPT出现之前,人们就已经开始担忧认知独立性以及新技术可能如何侵蚀它——主要是在脑机接口和神经技术的背景下。这个框架甚至有一个名字:认知自由——即个体有权维护心理完整性,免受算法操纵。你可以通过神经权利传统(https://lsspjournal.biomedcentral.com/articles/10.1186/s40504-017-0050-1)(Ienca & Andorno, 2017)以及联合国教科文组织《神经技术伦理建议书》(https://www.unesco.org/en/articles/unesco-adopts-first-global-recommendation-ethics-neurotechnology)(2025)追溯这一理念。
智力支撑已经存在,政策却尚未到位——尤其是在美国。没有它,我看不出有什么力量能推动前沿实验室像对待AI安全那样认真对待个人AI安全。
相似文章
OpenAI Blog
# 在人们最需要帮助的时刻提供支持
来源:[https://openai.com/index/helping-people-when-they-need-it-most/](https://openai.com/index/helping-people-when-they-need-it-most/)
在这样的规模下,我们有时会遇到处于严重精神和情感困境中的人。我们[几周前写过相关文章](https://openai.com/index/optimizing-chatgpt/),原计划在下一次重大更新后分享更多内容。然而,最近出现了一些令人心碎的案例,即人们在急性危机中使用 ChatGPT
OpenAI Blog
OpenAI 发布了一份关于 AI 负责任和安全使用的指南,为 ChatGPT 用户提供最佳实践,包括保持人类参与、验证信息、警惕偏见和在 AI 使用中保持透明度。
OpenAI Blog
OpenAI 阐述了其处理心理健康相关诉讼的方式,强调透明度、关怀和尊重,同时为相关指控进行辩护。公司详细介绍了其在改进 ChatGPT 安全功能方面的持续努力,包括识别心理困境和引导用户寻求专业支持。
OpenAI Blog
OpenAI 宣布了关于 ChatGPT 心理健康相关工作的更新,包括为成年用户提供新的信任联系人功能、通过先进的评估方法改进情绪困扰检测,以及于 2025 年 9 月推出的家长控制功能。该公司还涉及了在加州法院合并审理的持续心理健康相关诉讼,承诺保持透明度并持续改进安全功能。
OpenAI Blog
OpenAI 阐述了其对社区安全的承诺,详细介绍了 ChatGPT 如何通过完善的安全防护措施和专家意见来检测和降低暴力与伤害风险。