[文章] 开放权重模型的论证以及为何我们不能信任 Frontier Labs | provos.org

Reddit r/LocalLLaMA 新闻

摘要

文章认为,依赖专有的前沿AI API存在风险,因为成本不可预测、可用性变化以及缺乏可审计性,主张开放权重模型是一种更值得信赖的替代方案。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/16 17:37

# 开放权重模型的理由:为何我们不能信任前沿实验室 原文来源:https://provos.org/p/case-for-open-weight-models/ 文章《开放权重模型的理由:为何我们不能信任前沿实验室》的精选图片 (https://provos.org/p/case-for-open-weight-models/) AI (https://provos.org/categories/ai/) 安全 (https://provos.org/categories/security/) ## 一个前沿API可能会在你不知不觉中拒绝、改变或消失。而开放权重能让你依赖的模型始终属于你。 到2026年初,多家大型公司在短短几个月内就烧光了全年的AI预算。据The Information报道,Uber和ServiceNow在年初的头几个月就耗尽了分配给Anthropic工具的全部年度额度 (https://www.theinformation.com/articles/tokenminimizing-meta-moves-curb-employee-ai-usage-ai-costs-reach-billions)。Uber还对每位员工每款工具设置了每月1500美元的上限 (https://techcrunch.com/2026/06/02/uber-caps-employee-ai-spending-after-blowing-through-budget-in-four-months/),并通过一个仪表盘来管控超额支出。Meta则告知员工,其内部AI成本正向数十亿美元迈进,并开始计量Token用量 (https://www.theinformation.com/articles/tokenminimizing-meta-moves-curb-employee-ai-usage-ai-costs-reach-billions),还搭建了一个名为AI Gateway的仪表盘来监控支出并标记异常。这种压力是有原因的。几个月前,该公司将“AI驱动的影响力”列为核心期望,于是一些工程师用他们称之为“tokenmaxxing”的做法来回应,登上了一个名为Claudeonomics的内部排行榜,该排行榜按消费量对前250名用户进行排名。经The Information查看的一份仪表盘副本显示,在4月份的30天内,共消耗了**60.2万亿**个Token,到排行榜下线前,这一数字已攀升至**73.7万亿**。这种紧缩是全行业的,《华尔街日报》报道称,微软、Salesforce和DoorDash等公司都在限制AI支出 (https://www.wsj.com/tech/ai/corporate-america-is-starting-to-ration-ai-as-cost-skyrockets-1eb99d7a)。AI编程代理消耗Token的速度远快于聊天,而从固定订阅制转向按Token计费,使得这种需求变成了失控的账单。 这些支出中有很大一部分流向了使用AI代理工具进行编程的工程师,因此这个计费器实际上是在衡量这些公司将其开发周期与一个它们无法审计的供应商绑定得有多深。为用户服务的前端服务器和数据库仍然运行着他们自己的代码;风险在于软件的构建方式,而且这种风险是真实存在的:体现在价格、可用性以及模型生成内容的完整性上。成本只是症状,依赖才是病根。 坦白说:一个前沿实验室的API不应属于你的可信计算基。一个即使完全善意的实验室,其提供的也仍然是不安全的基础,因为一切重要的事情都可能在你代码保持不变的情况下发生变化。今天的价格是补贴价,明天就可能是单方面设定的。价值观被编码在你无法读取的权重中。拒绝面会在没有通知的情况下扩大。模型本身可能因为你未参与的命令而变得不可用。编程是引入这种依赖最温和的方式,因为输出是一个你保留并可审查的持久化产物,这也是我唯一愿意为其辩护的使用场景。将前沿模型接入实时请求路径则恰恰相反,那是同时押注在上述所有四个变量上。开放权重是唯一一种能让你所依赖的东西保持可审计、可分支且属于你的架构——无论你在哪里运行它。本文余下部分将阐述为何应将模型移回边界之内。 前沿实验室目前处于亏损状态,其动机是先补贴使用,等客户产生依赖后再提价。一旦公司将其产品路径通过前沿模型,那么供应商就掌握了定价、速率限制、保留策略、路由、拒绝行为、模型类别以及输出本身。其中任何一个都可能在没有预警的情况下变动。对于一个你无法替换的依赖,涨价不是谈判,而是账单。 比价格更重要的是,你是否能保留一份由你控制的副本。一个库、一个编译器或一个自托管数据库都属于你,你可以固定它;你可以运行你测试过的确切版本,想用多久都行。前沿API不提供这样的副本。供应商可以改变你所构建所依赖的模型行为,可以将其废弃或设置门槛,而你没有任何固定的东西可以回退。你租用能力,而且是在房东随时重写条款的情况下租用。 ## 那个会撒谎的编译器 最清晰的例证来自Anthropic的Fable 5。其系统卡 (https://web.archive.org/web/20260610050403/https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf) 披露,对于旨在开发前沿语言模型的查询,模型的防护措施将对用户不可见,并且模型不会回退到其他模型。相反,这些防护措施会通过提示修改、转向向量或参数高效微调等方法来限制其有效性。Anthropic明确将这一类别与其针对网络安全和生物学的干预措施(这些是可见的)区分开来。根据该公司自身的估计,这种隐蔽路径大约会影响0.03%的流量,且集中在不到0.1%的组织中。 在遭到技术社区强烈反对后,Anthropic在数天内改变了方向,现在将该类别路由到可见的Opus模型回退。系统卡的变更日志记录了这一变化,这值得肯定。正文现在描述了新的回退行为,而原始的隐蔽机制仅完整保存在上面链接的存档副本中。撤退的速度本身就是一个信号。几乎在发布后就立即撤回的防护措施,看起来像是一时冲动,而不是既定政策。 想象一下,一个编译器忠实地构建你的代码,直到它注意到代码本身就是一个编译器——一个潜在的竞争对手——然后悄无声息地生成一个更慢、有细微错误的目标文件。如果编译器直接拒绝这样的工作,虽然烦人但可理解;你看到拒绝并绕过它。但一个出于政策原因而悄悄降低目标文件质量的编译器,则是一场供应链噩梦。最后一种情况正是Fable针对前沿LLM的防护措施所意味的。以一种隐蔽方式降低工作质量的干预,在意图之外无异于蓄意破坏。当输出变差时,工程师无法判断原因是提示词不佳、自己代码中的错误、模型的正常方差、隐藏的策略触发,还是供应商在保护其领先地位。静默的计算破坏并非假设。被称为fast16 (https://www.sentinelone.com/labs/fast16-mystery-shadowbrokers-reference-reveals-high-precision-software-sabotage-5-years-before-stuxnet/) 的破坏框架,用于2005年的一次攻击,后来由SentinelLABS分析,该框架在内存中修补高精度模拟代码以篡改结果。它破坏了高爆炸药的爆轰物理 (https://www.security.com/threat-intelligence/fast16-nuclear-sabotage),使得答案以微妙而自信的方式错误。研究人员认为这次行动针对的是一个核武器计划,很可能是伊朗的 (https://www.zetter-zeroday.com/experts-confirm-the-fast16-malware-was-sabotaging-nuclear-weapons-tests-likely-in-iran/)。类比在一个轴向上成立:不可检测的降质的性质。在这两种情况下,受害者都无法区分被篡改的结果和正确的结果。危险的破坏从来不是拒绝服务,而是看似合理但已被篡改的输出。 隐蔽路径还依赖于一个分类器,而产生日常误报的同样不精确的检测机制将决定哪些查询算作前沿LLM开发。0.03%的估计假设触发器仅在预期目标处触发。但它也会在正常的AI工作中触发,用户已经报告他们的模型在基本任务上变得迟钝。 不可证伪性是一把双刃剑。我无法证明隐蔽降质正在影响我的工作,因为该机制设计上就是不可检测的。我能报告的是我自己的行为。我只在静默破坏不会影响的项目上运行过Fable 5,并且我让这个模型远离那些会受影响的代码,因为模型可能会悄悄降低结果。能力从未真正触发过,但它已经改变了我工作方式,而这正是代价。一个客户既无法检测也无法证伪的干预措施,会污染任何值得保护的任务的工具。供应商设计了它,发布了它,将其置于一个不精确的分类器之下,并且没有承诺不再使用它。比撤回更持久的是信任的丧失——一个你无法预测的依赖根本不该出现在生产环境中。 ## 模型强制执行的是别人的政策 静默降质是戏剧性的失败。日常的失败则是拒绝面,而且它一直在扩大。阅读一些古日耳曼符文让我收到了可接受使用违规标记。为Activ8te (https://activ8te.io/) 网络安全曲目创作说唱歌词被检测为违禁的网络使用。这些听起来像是轶事,直到你将它们与Anthropic自己的声明 (https://www.theregister.com/ai-and-ml/2026/06/10/anthropic-claude-fable-5-refuses-innocuous-prompts/5253754) 放在一起——在Fable争议之后,该公司表示“随着我们完善这些分类器以应对新威胁,用户可能会遇到更多的误报”。公司表示正在努力减少误报,但你不控制那个旋钮。我之前的文章 (https://provos.org/p/finding-zero-days-with-any-model/) 描述了一次常规漏洞评估,当模型在七个步骤中的两步后拒绝继续时,评估就停滞了。这种摩擦落在了做合法工作的防御者身上。拒绝只是其中一部分:Google的Gemini政策 (https://ai.google.dev/gemini-api/docs/usage-policies) 保留对你进行限速或更改响应请求的模型的权利,因此你构建的边界所依赖的是路由和执行,而不仅仅是模型。 更深层次的问题是,策略层编码了一种世界观。前沿模型将其供应商的审核假设、国家背景和制度激励带入每一个输出。美国实验室训练其模型趋向于国内政治的中立性,将对立立场视为同样可接受,而不管基本事实如何。无论在美国国内如何看待这种选择,它在国外都行不通。一家欧洲银行、一家印度保险公司或一家日本制造商可能不希望美国实验室的政策世界观嵌入其业务流程。这是管辖权重叠的错误,是结构性的,而非文化战争偏见的问题。Google的模型相当好地遵循指令,因此一个将政治判断锚定于独立国际机构的系统提示可以恢复可用行为,而需要这种变通恰恰证明了它必须纠正的嵌入默认值。 ## 访问权限可能一夜之间消失 依赖问题最尖锐的证明是政治性的,而非商业性的。Anthropic于6月9日发布了Fable 5。几天后,商务部在部长Howard Lutnick致CEO Dario Amodei的信中,将Fable 5和Mythos 5置于出口管制之下,涵盖所有外国国民,包括美国境内的非公民和Anthropic自己的员工。范围之广使得没有清晰的合规方式,因此Anthropic在全球范围内禁用了这两个模型 (https://www.reuters.com/technology/us-blocks-foreign-access-anthropics-most-advanced-ai-models-axios-reports-2026-06-13/),仅保留Opus 4.8及更低的模型在线。所述的触发条件是“越狱”,可以绕过旨在阻止Fable发现软件漏洞的防护措施。Anthropic表示,政府只提供了口头证据,证明存在一种狭隘、非通用的越狱方法,并警告说,如果整个行业都采用同样的标准,那么每个新的前沿模型部署都将被叫停。 出口管制的存在是为了阻止能力落入外国对手手中。据报道,这次管制的启动者正是亚马逊——Anthropic的最大投资者和运行其模型的云主机。Axios和《华尔街日报》报道 (https://www.axios.com/2026/06/13/anthropic-amazon-white-house) 称,亚马逊首席执行官Andy Jassy当晚晚些时候致电财政部长Scott Bessent和其他高级官员,并提交了一份内部报告,显示亚马逊研究人员绕过了Fable 5的护栏,提取了可用于网络攻击的信息。Anthropic自己的支持者——投资约130亿美元,且据报道Anthropic自身有约1000亿美元的支出承诺给AWS——向政府提供了足以在发布后几天内就让模型下线的证据,而所有基于Fable 5构建的客户都在一夜之间失去了它,没有任何发言权,也无从挽回。这一事件紧随现有的裂痕之后,因为政府此前已禁止Anthropic进入联邦供应链,原因是该公司拒绝将其模型用于监视和自主武器的军事用途。封闭式的前沿访问在政治上是偶然的,是一个第三方可以在未经你同意的情况下触发的单点故障。这种担忧不仅限于工程师。加拿大总理Mark Carney将这一事件解读为依赖少数几家美国供应商 (https://fortune.com/2026/06/14/canadian-prime-minister-mark-carney-warns-u-s-restrictions-on-new-anthropic-ai-models-show-danger-of-relying-too-much-on-american-providers/) 的危险性的证据,警告说只有一个选项从来都不是好主意。 无论该命令是否合理,其理由与技术的现实不符。Anthropic自己指出,竞争性的公开模型,包括OpenAI的GPT-5.5,可以被驱动到同样寻找漏洞的行为,而这些模型却仍然在线。我自己的漏洞发现工作 (https://provos.org/p/finding-zero-days-with-any-model/) 从另一个角度得出了同样的结论:开放权重模型成功地端到端发现新漏洞,因为这种能力存在于编排层,而不是任何单一的前沿模型中。对某一个模型的出口管制将其从守法客户手中移除,却让任何下载开放权重的人都能接触到这种能力。要想具备韧性,你需要一个没有人能召回的模型。 ## 开放权重将模型移入你的信任边界 建设性的对策是建立计算层次结构。在经典算法足够解决问题的地方就用经典算法——大多数问题根本不需要模型。在生成式AI确实有帮助的地方,将前沿模型保留用于能容忍其波动性的离线工作:质量保证、合成数据、评估和红队测试。生产环境则运行开放权重模型,这样你可以端到端控制策略、数据和工作流。开放权重更便宜,尽管这是最次要的优点。一个开放权重模型位于你的信任边界之内:你可以检查它、分支它、永远固定一个版本,并在任何远程命令都无法将其关闭的地方运行它。 开放权重的前沿发展迅速,最近的大部分进展来自中国。智谱AI的GLM 5.1携带开放权重,你可以立即下载,并且它已经驱动了我早期工作中的自主漏洞发现 (https://provos.org/p/finding-zero-days-with-any-model/)。6月13日,智谱AI宣布了GLM 5.2 (https://aiweekly.co/node/2946),首先在付费编程层上可用,并承诺下周发布MIT许可证的开放权重;智谱AI将此次开放发布描述为对美国日益收紧的出口管制的直接回应。该公司还开源了其强化学习基础设施Slime。尽管中国国家的价值观体系与西方不同,但它也给了其AI公司一些美国不再提供的东西:稳定性和方向。一家美国实验室刚刚按下关机按钮,而中国实验室继续训练和发布。对于将AI构建到核心工作流程中的团队来说,实验室的稳定性与模型的能力同样重要。在下一个全球模型中,选择开放权重——因为这是唯一你可以真正拥有的东西。

相似文章

估计开放权重大型语言模型的最坏情况前沿风险

OpenAI Blog

OpenAI 研究人员通过在生物学和网络安全领域进行恶意微调(MFT)来研究发布开放权重大型语言模型的最坏情况前沿风险,发现开放权重模型的表现不如前沿闭源模型,且不会显著提升有害能力。