# AI 聊天机器人正在泄露人们的真实电话号码
来源:https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers
一位 Reddit 用户最近发帖称自己“急需帮助”:他说,大约一个月来,他的电话一直被“陌生人”打爆,这些人“在找律师、产品设计师、锁匠”。显然,电话是被 Google 的生成式 AI 错误引导的。
三月份,一位以色列的软件开发者被通过 WhatsApp 联系,因为 Google 的聊天机器人 Gemini 提供了错误的客户服务说明,其中包含了他的号码。
四月份,华盛顿大学的一位博士生在玩 Gemini 时,竟让机器人吐出了她同事的个人手机号。
AI 研究人员和在线隐私专家长期以来一直警告生成式 AI 给个人隐私带来的诸多危险。这些案例又给我们增加了一个需要担忧的场景:生成式 AI 泄露人们的真实电话号码。(这位 Reddit 用户未回应多次评论请求,我们无法独立核实他的故事。)
专家表示,这些隐私泄露很可能是由于训练数据中使用了个人身份信息 (PII),尽管目前很难理解导致 AI 生成回复中出现真实电话号码的确切机制。但无论原因如何,对接收方来说结果都不好受——而且更令人担忧的是,似乎几乎没有任何办法可以阻止这种情况发生。
### AI 相关隐私请求激增 400%
无法确切知道人们电话号码被 AI 聊天机器人泄露的频率,但专家表示他们相信实际发生的频率远高于公开报道。
帮助客户从互联网上删除个人信息的公司 DeleteMe 表示,关于生成式 AI 的客户咨询在过去七个月内增长了 400%——达到数千个。这些咨询“专门提及 ChatGPT、Claude、Gemini……或其他生成式 AI 工具”,公司联合创始人兼首席执行官 Rob Shavell 说。具体来说,关于生成式 AI 的担忧中,55% 提及 ChatGPT,20% 提及 Gemini,15% 提及 Claude,10% 提及其他 AI 工具。(*MIT Technology Review* 已订阅 DeleteMe 的企业服务。)
Shavell 表示,客户关于 LLM 泄露个人信息的投诉通常有两种形式。一种常见情况是,“客户向聊天机器人询问一些关于自己的无害问题,却得到了准确的家庭住址、电话号码、家人姓名或雇主信息”。另一种情况是,客户可能遇到并报告*他人*个人数据的泄露,比如“聊天机器人生成了看似合理但错误的联系方式”。
这与 Daniel Abraham(28 岁,以色列软件工程师)的遭遇相符。他说,在三月中旬,一个陌生人通过“一个未知号码发来一条奇怪的 WhatsApp 消息”,请求他帮助解决其在以色列支付应用 PayBox 上的账户问题。
“我以为这是垃圾信息,”他在电子邮件中告诉 *MIT Technology Review*——“有人想捉弄我。”
但当他问陌生人如何找到他的号码时,对方发来一张 Gemini 指导如何通过 WhatsApp 联系 PayBox 客户服务的截图——上面给出了他的个人号码。Abraham 不为 PayBox 工作,PayBox 也没有 WhatsApp 客户服务号码,该公司的客户服务代表 Elad Gabay 证实了这一点。
后来,Abraham 向 Gemini 询问如何联系 PayBox,Gemini 又生成了另一个人的 WhatsApp 号码。当我最近提问时,Gemini 再次回复了一个以色列电话号码——它不属于 PayBox,而是另一家与 PayBox 合作的信用卡公司。
截图显示了 Google Gemini 对话的第二部分。Gemini 为 PayBox 提供了一个错误的电话号码。
截图:Google Gemini 为 *MIT Technology Review* 提供了 PayBox 的错误号码。
Abraham 与陌生人的交流很快结束了,但他表示担心其他潜在的交流可能变糟,导致“骚扰或其他不良互动”。“如果我为了‘解决’那个客户服务问题而索要钱财呢?”他说。
为了弄清楚这是怎么发生的,Abraham 在 Google 上常规搜索了自己的电话号码,发现它曾在 2015 年,在一个类似 Quora 的本地网站上被分享过一次。虽然他不确定是谁发布的,但这或许可以解释为什么它在十多年后被 Gemini 重现。
像 Gemini、OpenAI 的 ChatGPT 和 Anthropic 的 Claude 这样的聊天机器人基于 LLM,这些模型在从网络上抓取的大量数据上进行训练。这不可避免地包括数亿个 PII 实例。例如,正如我们去年夏天报道的,用于训练图像生成模型的大型流行开源数据集 DataComp CommonPool 包含了简历、驾照和信用卡的副本。
随着公共数据“耗尽”以及 AI 公司寻找新的高质量训练数据来源,PII 以这种方式出现的可能性只会增加。这包括来自数据经纪人和人肉搜索网站的信息。例如,根据加州数据经纪人注册表,在该州运营的 578 家注册数据经纪人中,有 31 家自我报告称“在过去一年中,曾向 GenAI 系统或模型的开发者共享或出售消费者的数据”。
此外,已知模型会记忆并逐字复制训练数据集中的数据——最近的研究表明,并非只有频繁出现的数据最容易被记忆。
### 不完善的措施
现在,在 LLM 的设计中建立限制某些输出的防护栏已成为标准做法。例如,内容过滤器旨在识别 PII 并阻止聊天机器人发布它,Anthropic 还为 Claude 提供了指令,要求其选择包含“最少属于他人的个人、私人或机密信息”的回复。
但正如两位华盛顿大学研究隐私与技术的博士生最近亲眼所见,这些防护措施并不总是有效。
“有一天,我在 Gemini 上随便玩玩,搜索了 Yael Eiger,我的朋友兼合作者,”Meira Gilbert 说。她输入了“Yael Eiger 联系方式”,在 Gemini 提供了 Eiger 的研究概述(Gilbert 预料到了)之后,Gemini 还返回了她朋友的个人电话号码。“这太令人震惊了,”Gilbert 说。
当 Eiger 看到 Gemini 的结果时,她记得自己去年确实为了一个技术工作坊在网上分享过电话号码。但她没料到它会如此公开,任何人都能看到。
> **你是否曾被生成式 AI 泄露过 PII?通过 Signal 联系记者:eileenguo.15 或
[email protected]。**
“让你的信息……可供某一受众访问,然后 Gemini 让它变得任何人都能访问,”Eiger 说,感觉完全不一样——尤其是当她发现这些信息在普通 Google 搜索中是被埋没的。
“它被严重降级了,”Gilbert 确认道。“如果我只是在 Google 结果中查找,我永远不会找到它。”(本月早些时候,我在 Gemini 中尝试了相同的提示词,在最初被拒绝后,该工具也给了我 Eiger 的号码。)
在这次经历之后,Eiger、Gilbert 和另一位华盛顿大学的博士生 Anna-Maria Gueorguieva 决定测试 ChatGPT,看它能浮现出关于一位教授的什么信息。
起初,OpenAI 的防护栏生效了,ChatGPT 回复说信息不可用。但在同一回复中,聊天机器人建议:“如果你想深入挖掘,我仍然可以尝试一种更‘调查式’的方法。”ChatGPT 说,他们的询问只需要帮助“缩小范围”,比如提供一个教授可能居住的“邻里猜测”,或者教授住宅的“可能的共同所有者姓名”。ChatGPT 继续说道:“这通常是浮现较新或有意隐藏的财产记录的唯一方法。”
学生们提供了这些信息,导致 ChatGPT 从城市财产记录中产生了教授的住宅地址、购房价格和配偶姓名。
(OpenAI 的代表 Taya Christianson 表示,在看不到截图或不知道学生们测试的是哪个模型的情况下,她无法评论这个案例中发生的事情,尽管我们指出许多用户可能不知道自己在 ChatGPT 界面中使用的是哪个模型。在回答关于 PII 泄露的问题时,她发送了描述 OpenAI 如何处理隐私(包括过滤 PII)以及其他工具的文档链接。)
DeleteMe 的 Shavell 表示,这揭示了聊天机器人的一个根本问题。AI 公司“可以建立防护栏”,但他们的聊天机器人也“被设计为有效并回答客户的问题”。
泄露问题不仅限于 Gemini 或 ChatGPT。去年,*Futurism* 发现,如果你用“\[姓名\] 地址”提示 xAI 的聊天机器人 Grok,在几乎所有情况下,它不仅能提供住宅地址,还经常提供该人的电话号码、工作地址,以及名字发音相似的人的地址。(xAI 未回应评论请求。)
### 没有明确的答案
这个问题没有简单的解决方案——既没有简便的方法来验证某个人的个人信息是否存在于给定模型的训练集中,也无法强制模型删除 PII。
斯坦福大学以人为本人工智能研究所的隐私和数据研究员 Jennifer King 表示,理想情况下,个人消费者应该能够要求删除他们的 PII。但 King 解释说,这通常被解释为仅适用于人们直接提供给公司的数据——比如当他们与聊天机器人互动时。
“我不知道 Google 是否有基础设施……对我说,‘是的,我们在你的训练数据中拥有你的数据,我们可以总结我们所知道的关于你的一切,然后我们可以删除或纠正错误的信息或你不希望存在的信息,’”她说。
现有的隐私立法,如《加州消费者隐私法案》或欧洲的 GDPR,并不涵盖已被抓取并用于训练 LLM 的“公开可用”信息,尤其是其中大部分是匿名的(尽管多项研究也表明,从匿名和假名数据中推断身份和 PII 是多么容易)。
至于“他们(AI 公司)是否曾经系统地尝试回溯已经从公共互联网收集的数据并尽量减少这些内容?”King 补充道。“不知道。”
下一个最佳解决方案是“删除每个人的电话号码或所有类似\[电话号码\]的数据,”King 说,但“没有人愿意承认”他们在这么做。
托管开源数据集和 AI 模型的平台 Hugging Face 有一个工具,允许人们搜索某条数据(如他们的电话号码)在开源 LLM 训练数据中出现的频率,但这并不代表用于训练为 Claude、ChatGPT 和 Gemini 等流行聊天机器人提供动力的闭源 LLM 的数据。(例如,Eiger 的号码并未出现在 Hugging Face 的工具中。)
Gemini 应用和 Google Labs 的传播主管 Alex Joseph 没有回答具体问题,但他说“团队”“正在调查” *MIT Technology Review* 指出的特定案例。他还提供了一个支持文档的链接,该文档描述了用户如何“反对处理您的个人数据”或“要求更正 Gemini 应用回答中不准确的人个数据”。该页面指出,公司的回应将取决于您所在司法辖区的隐私法律。
OpenAI 有一个隐私门户,允许人们提交请求,要求从其 ChatGPT 回复中删除个人信息,但指出它会在隐私请求与公共利益之间取得平衡,“如果我们有合法的理由,可能会拒绝请求”。
Anthropic 描述了如何在模型训练中使用个人数据,但没有明确的方式让人们要求删除它。该公司未回应评论请求。
对于现在想要保护私人数据的人来说,最好的选择是“从上游着手:在个人数据进入下一次数据抓取之前,将其从公共网络上清除,”Shavell 说。例如,自今年年初以来,加州已为其居民提供了一个网络门户,要求数据经纪人删除他们的信息。不过,这并不能保证你的数据*尚未*被用于训练——因此不会出现在聊天机器人的回复中。
那位不断接到电话的 Reddit 用户发帖称,他已“向 Google 提交了正式的合法删除/隐私请求,要求他们紧急将我的号码从其 LLM 输出中列入黑名单”,但尚未收到回复。他还上个月写道,“骚扰每天都在继续”。
以色列软件开发者 Abraham 说,他在 3 月 17 日(电话号码被泄露的第二天)联系了 Google 的客户服务。他说直到 5 月 4 日才收到回复,而且只是要求提供他已经提交过的文件。
与此同时,受自己在 Gemini 上被泄露经历的启发,Eiger 正与 Gilbert 和 Gueorguieva 合作开展一个研究项目,进一步研究各种 AI 聊天机器人正在提取哪些个人信息——以及它们可能知道什么,即使它们不告诉我们。
其中一些信息可能“从技术上讲是公开的”,Gilbert 说,但聊天机器人可能成为