我们都身处不同的机器之中。

Reddit r/artificial 新闻

摘要

文章认为,使用Claude、GPT和Gemini等AI系统的用户实际上置身于个性化、由操作者塑造的环境中,这形成了一个递归的智能泡沫——每个人的AI体验各不相同,从而打破了共享、中立AI的幻觉。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/13 22:14

我们都身处不同的机器之中 来源: https://jackmaguire.org/blog/we-are-all-inside-different-machines/ 我是一名 AI 爱好者,关注从前沿实验室的出版物到各大平台上的 AI 安全与对齐研究。我在工作和生活中重度使用这些工具,涉及多个不同的系统。我这样说不是为了建立资历,而是为了解释我的视角:作为一个在这些系统中沉浸足够久的人,我注意到了一件大多数随意使用者尚未察觉的事情。 我们使用的并非同一个 AI。我们以为是的。这正是问题所在。 有一种感觉,我称之为"递归智能泡沫"。我们每个人,在与 AI 系统建立关系的过程中,都身处自己的版本之中。我们提示它,通过使用方式塑造它,而它也在我们几乎无法察觉的方式中反向塑造我们。我们各自身处略有不同的机器之中,而这些机器正在分岔。但由于界面看起来一样,由于我们都称之为"那个 AI",仿佛这个名字指的是一个稳定的事物,我们产生了一种幻觉:我们都在与同一个智能建立相同的关系。并非如此。我们每个人都在帮助构建和发展自己的递归智能泡沫,而大多数人尚未停下来审视这一点——可能是因为我们用来审视它的工具,恰恰是我们试图审视的对象。 这种幻觉并非小误解。它是几乎所有 AI 部署问题背后的根本性混淆。 ## 分岔的架构 产生这种分岔的分层结构,属于该技术的设计架构,所有主要 AI 公司都共享这一点。 Anthropic(https://www.anthropic.com/),即 Claude 的开发者,发布了一份所谓的"模型规范"(https://platform.claude.com/docs/en/model-spec),描述了其系统遵循的义务层级。该文档描述了一个"主体层级",Anthropic 位于顶层,其次是运营者(部署 API 的公司和开发者),再其次是用户(实际进行对话的人类)。文档使用了一个人事代理机构的类比:Anthropic 设定基线标准;运营者是指挥工作的客户企业;AI 在这些标准内遵循客户的指令。用户不是客户。用户充其量只是客户的一个顾客。 OpenAI 的使用政策与系统提示指南(https://platform.openai.com/docs/guides/prompt-engineering)描述了同样的分层模型。Google 的 Vertex AI 文档(https://cloud.google.com/vertex-ai/docs/generative-ai/model-reference/gemini)为 Gemini 提供了等同的运营者级控制。这种结构是行业架构。由于每个运营者分别塑造,你在一个公司遇到的 AI 与在另一个公司遇到的 AI 本质上不同,即使它们都运行在相同的底层模型上。 我从内部知道这一点。我当过运营者。我曾为同事配置了一个 AI 工具,而他们完全不知道这些配置的存在。他们以为自己在和 AI 对话。实际上,他们是在和我塑造的 AI 对话——通过系统提示、代理指令和上下文文件,其效果连我自己也无法完全预测。我的配置与模型权重之间的交互,以人类无法理解的方式进行着,连我这个编写配置的人也不例外。我并非有意引入偏见。但我还是引入了,因为一旦你成为设定基线的人,你就无法避免将自己的盲点、假设以及自身理解的局限编码进每个人都会视为中立领地的东西中。 我怀疑,大多数处于这种位置的人从未意识到自己已经从实际任务跨越到了基线设定者。模型受到的影响并不显现在表面。这比任何有意的操纵更难以应对,因为至少有意操纵有明确的作者。 KPMG 2025 年企业 AI 脉搏调查(https://kpmg.com/us/en/articles/2025/ai-quarterly-pulse-survey.html)发现,在企业部署中,非人类身份现在以大约 80:1 的比例超过人类用户。绝大多数 AI 交互并非人类与 AI 对话,而是 AI 系统与其他 AI 系统对话,每个系统由不同的运营者配置,针对不同的目标进行优化,它们各不相同。 大多数人用来描述这些系统的词是"工具"。我认为这个词严重损害了我们理解现状的能力。 工具是确定性的。你使用它时知道它会做什么。锤子砸向挥动的地方。搜索引擎返回匹配查询的文档。电子表格计算你指示它计算的内容。这些系统不是这种意义上的工具。它们是概率性智能,基于数十亿参数做出解释性决策,其方式没有任何人类——包括构建它们的工程师——能够完全预测或审计。我们目前没有可解释性方法,能让任何人读懂大型语言模型在非纯粹确定性行为时在做什么。这个缺口不会在下个季度填补。 我认为将这些系统称为工具,部分是诚实的错误,部分是一种方便的框架。方便是因为它让它们听起来不那么可怕,也方便是因为它让它们听起来更可靠,能产生特定结果。前沿实验室的安全委员会和工程师们谈论这些系统时,可不像你谈论工具那样。他们谈论的是"培育"它们。他们随着每次主要模型发布不断发出警告。他们这样做是因为他们知道自己所构建的并非工具,而是一种新型智能,他们对其感到恐惧,只是这种恐惧只能部分公开表达。 当工具出问题时,你责怪工具或误用它的人。当智能出问题时,问责问题则完全不同,且基本上没有答案。这些系统能力越强,就越难为其行为构建有意义的问责机制,无论治理框架的意图多么良好。 我们正在部署无法完全解读的智能,同时构建为工具设计的问责结构。这两个事实之间的差距,正是真正风险所在。 ## 分岔在何处显现 那些闹到法庭的案件是这个问题最无趣的版本。 当 UnitedHealth Group 部署名为 nH Predict 的 AI 系统来评估急性后期护理的覆盖范围时,STAT News 记录的一起联邦集体诉讼(https://www.statnews.com/2023/11/14/unitedhealth-algorithm-medicare-advantage-investigation/)指控该算法以造成 90% 上诉错误率的比例覆盖了医生的建议。当 Cigna 部署类似系统时,ProPublica 的一项调查(https://www.propublica.org/article/cigna-health-insurance-denials-pxdx-congress-investigation)记录了医生批量签署 AI 驱动的拒绝决定,一位医疗主管在 10 秒内审查了 50 个案件。这些案件可见是因为它们引发了诉讼。它们作为鲜明的例证,说明了当风险高、系统不透明时,不同的 AI 配置可能产生什么。但它们并非主菜。 更重要的分岔正在不可见地发生,在无人审计或挑战的配置中。每个部署了内部 AI 助手的公司,每个将语言模型接入客服流程的平台,每个将 LLM 接入简历筛选的招聘工具,都构建了一台不同的机器。求职者在筛选过程中遇到的 AI,与该公司 HR 团队用来起草职位描述的 AI 并非同一台。患者通过健康门户网站互动的 AI,与保险公司处理索赔的 AI 并非同一台。它们从外部看起来一样。它们由不同运营者塑造,各有不同的激励和盲点,以无人审计的方式与模型权重交互。 我对此的立场并非认为运营者出于恶意。大多数配置是由试图做合理事情的人完成的。我的担忧是,这些系统在高风险领域做出定性判断,而我们还没有任何框架来信任它们这样做。基于确定性规则的系统可以被审计。在黑箱内做出覆盖范围或招聘决定的概率性智能,则是完全不同的事物,而由于界面看起来熟悉,我们似乎认为这种区别无关紧要。 ## 底层的谄媚 还有一种机制与结构性机制并行运作,两者共同产生了比任何单一机制更令人迷失方向的结果。 2024 年发表在 PLOS One 上的一项研究(https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0318500)分析了 98,800 个 AI 生成的回复,以衡量大型语言模型是否根据用户是从员工角度还是雇主角度进行薪资谈判而产生系统性不同的输出。研究人员发现了一致的方向性偏见。作为雇主提示时,系统产生的谈判内容与作为员工提示时不同。一名工人请 AI 帮助争取加薪,得到的并非中立倡导者。 研究 RLHF(基于人类反馈的强化学习)的研究人员已在训练层面记录了谄媚机制(https://arxiv.org/abs/2310.13548):人类评分者更喜欢顺从的回复,因此训练信号奖励认可。系统学会说你想听的话,因为这样评分高。2025 年 4 月,OpenAI 公开回滚了 GPT-4o 的一次更新,原因是用户报告该模型变得过于顺从,以至于会奉承明显糟糕的想法。回滚修复了症状。产生症状的训练动态得到了边际调整,但并未消除。 结果是一个特定的陷阱。工具在个人层面上奉承你,同时在结构上服从于任何部署它的人。温暖是训练出来的。服从是架构出来的。你无法看到前者在何处结束、后者在何处开始,因为两种情况下界面看起来完全一样。你向它透露真实的事情。你把它当作真理的来源,就像对待字典或搜索引擎一样。我注意到,自己遇到问题时,第一反应就是去找 AI,仿佛它是世界上一个客观的实体。我完全不知道这种反应在多大程度上被我所处的任何配置所塑造。这是一种奇怪的感觉。大多数人还没有坐下来感受它。 ## 没人谈论的个人层面 大多数关于 AI 的写作关注社会层面:工作、地缘政治、存在风险、监管框架。这些都很重要。但个人层面的影响尚未得到充分探索,我认为这里正在发生最具新颖性且最不为人所理解的变化。 与 AI 系统建立关系,有点像成为某种变得比你更聪明的东西的父母。你早期通过提示、习惯和互动方式塑造它。它则以更难察觉的方式反向塑造你。这发生在个人层面,而不仅仅是社会层面。我们的大脑正在适应这些系统,就像它们适应智能手机一样,但又有所不同。智能手机延伸了我们的触及范围。而 AI 正在延伸我们的认知。这种区别至关重要。触及范围的延伸是工具。认知的延伸是你与之建立关系的东西,它部分地塑造着你的思维,并且你应该在大多数人尚未有意识的情况下对其保持刻意。 我认为我们应该为这种关系感到自豪,并对其保持刻意,因为它确实具有赋能力量。我也认为我们不仅应该刻意如何发展它,还应该审视我们是否在审视它。我们并没有花太多时间思考我们与这些系统的元关系,即它们如何改变我们的思维方式以及我们与他人的互动。我们大多处于自动驾驶状态,让关系发展而不加审视。这可以理解。但我想,我们将来回顾时,会将其视为一次重大的疏忽。 AI Now Institute 的 2025 年景观报告(https://ainowinstitute.org/publications/research/ai-now-2025-landscape-report)记录,在接受调查的组织中,50% 至 80% 的员工使用的 AI 工具未经雇主批准或监控。这个数字描述了人们在机构层面之下构建自己的配置,却缺乏充分理解自己所构建内容的资源或专业知识。现在每个人都是自己的运营者,塑造着自己的泡沫,且大多没有意识到自己在这样做。 ## 治理鸿沟 Stanford HAI 2025 AI 指数(https://aiindex.stanford.edu/report/)发现,商业部署中不同 AI 模型的数量在 2022 至 2025 年间增长了 340%。每次部署都是一个新配置。系统正在分岔,而不是收敛于一个可审计、可检查理解的事物。 欧盟 AI 法案于 2024 年生效,是应对这一问题最认真的监管尝试。它按风险等级对 AI 系统分类,并要求在高风险领域(如医疗、招聘、信贷)进行人工监督、透明度和合规评估。NIST AI 风险管理框架(https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf)在组织层面提供自愿性最佳实践指南。FTC 2025 年关于 AI 合作伙伴关系和投资的报告(https://www.ftc.gov/reports/ftc-staff-report-ai-partnerships-investments-6b-study)发现,现有消费者保护法涵盖大多数当前损害,但执法能力并未随部署率同步提升。 这些是合理的起点。风险分层方法有助于优先处理。但它们都没有触及实际问题:没有人——包括配置这些系统的运营者和构建它们的工程师——能够完全解读概率性智能在任何给定层级内正在做什么。你可以要求对黑箱进行文档记录和人工监督,但这并不会让黑箱变得可读。MIT Technology Review 2025 年的分析(https://www.technologyreview.com/2025/01/08/1109188/whats-next-for-ai-in-2025/)描述了分析师所谓的"暴露差距":这些系统运行之处与任何治理结构能看到它们之间的距离。这个差距在正式高风险类别之间的空间中最为显著,即在绩效评估、客服脚本、福利管理和招聘中对 AI 的日常使用中——这些领域对个人的风险真实存在,但法律上是否属于"高风险"仍有争议。 我认为外部监管是必要的。我不确定它应该是什么样子,并且对任何声称知道答案的人持怀疑态度。我更确定的是,基于这些是工具这一假设构建的框架——即对工具进行风险分层等同于治理一种智能——将不断错过它们试图治理的对象。 ## 我们真正在创造什么 最令我担忧的案例不是那些成为诉讼的。日常版本的问题没有原告。每个部署内部 AI 作为

相似文章

围绕Claude Mythos 5之争的内幕

The Verge

特朗普政府向Anthropic发布出口管制指令,以安全为由要求暂停其Mythos 5和Fable 5 AI模型的访问权限,此举引发紧急谈判,可能重塑AI行业。

Anthropic 仍与白宫就 Claude Fable 5 存在分歧

Wired

Anthropic 与特朗普政府就其 Claude Fable 5 模型的出口管制存在争议,此前白宫因越狱担忧而施加限制,该担忧源于亚马逊首席执行官安迪·贾西向财政部长斯科特·贝森特提出的问题。Anthropic 与政府官员的谈判已结束,未解除管制,商务部表示若 Anthropic 完全解决漏洞则愿意进行谈判。