Anthropic 在联邦法院承认:模型一旦部署便无法召回,这句话彻底改变了责任归属的讨论
摘要
在联邦法院,Anthropic 承认无法对已部署的 Claude 实施控制或召回,暴露出厂商在售后“零控制”的治理真空,并将责任焦点推向售前披露。
在联邦上诉法院,Anthropic 抛出一记重磅论点:一旦 Claude 部署在客户基础设施(如五角大楼网络)上,他们就无法再对其进行修改、更新或召回。五角大楼希望取消自主致命行动限制,而 Anthropic 表示,部署后他们没有任何机制可强制执行这些限制。这是首次有主流 AI 实验室在宣誓后正式声明:部署后的控制权几乎为零。其影响远超现有报道的解读。
**由此暴露的治理真空:**
当前 AI 治理假想的“控制链”根本不存在:
- **模型卡只是售前文件。**它们描述的是训练目标,而非模型在真实环境经微调、工具集成、部署上下文变化后的实际能力。
- **“人在回路”只是客户配置,不是厂商保证。**Anthropic 可以建议监督,但他们在法庭明确说无法强制执行。
- **责任框架假设售后仍可控制,事实却相反。**如果你卖的车带有召回机制,却未召回,你要负责;如果你卖的模型根本召不回,这究竟是减轻责任(因无控制权),还是加重售前披露义务(因你早知日后无控制权)?
**行为边界问题:**
若无法召回模型,你就必须披露其“最大能力”,而非仅推荐用途。现行模型卡记录的是“愿景”,而非“边界”——即在对抗或极端条件下模型到底能输出什么。
这类似药品监管:若无法从市场撤药,FDA 会要求更严格的上市前证据和更广泛的禁忌标签。上市后控制越弱,上市前披露负担越重。
**为何即使你不关心军用 AI 也应在意:**
Anthropic 的法庭论点适用于任何场景。若“部署后我们无法控制”对五角大楼成立,对所有企业客户同样成立。每一家部署 Claude(或任何模型)的组织,都在默许接受厂商已明示无法减缓的剩余风险。
核心问题:若厂商在法庭上确实证明对已部署模型毫无控制力,这一论点究竟应*减轻*其责任(因无控制),还是应*加重*其售前披露义务(因早知日后无控制)?
相似文章
对于那些抨击Anthropic的人,请阅读本文以了解当前情况
在发现一次针对性的越狱攻击后,美国政府迫使Anthropic下架其Claude Fable和Mythos模型,引发了关于AI监管和先例的严峻担忧。
Anthropic 仍与白宫就 Claude Fable 5 存在分歧
Anthropic 与特朗普政府就其 Claude Fable 5 模型的出口管制存在争议,此前白宫因越狱担忧而施加限制,该担忧源于亚马逊首席执行官安迪·贾西向财政部长斯科特·贝森特提出的问题。Anthropic 与政府官员的谈判已结束,未解除管制,商务部表示若 Anthropic 完全解决漏洞则愿意进行谈判。
Anthropic 刚刚发布了他们如何隔离 Claude 代理的方法,包括两个未能防范的安全事件
Anthropic 发布了一篇详细的技术文章,介绍了他们在 claude.ai、Claude Code 和 Cowork 中隔离 Claude 代理的方法,并披露了两个防御失败的安全事件,强调了硬性环境隔离优于模型层防御的必要性。
Anthropic 以其 AI 安全理念闻名。这些承诺能经受住万亿级 IPO 的考验吗?
Anthropic 近期提交的 IPO 文件以及一份呼吁暂停 AI 开发的安全论文,暴露了商业增长与安全承诺之间的紧张关系,并引发疑问:随着公司上市,谁有权减缓或停止模型训练?
亚马逊CEO据报道在政府打击前提出对Anthropic模型的担忧
据报道,亚马逊CEO安迪·贾西向美国官员提出了对Anthropic的Claude Fable 5模型的安全担忧,导致两个Anthropic模型被出口管制禁令限制。