Anthropic 的 Mythos 系统卡揭示:AI 具备功能性情绪状态,即使输出中未体现,也会影响行为。我们仍称其为“工具”
摘要
Anthropic 的 Mythos 系统卡显示,大模型内部存在情绪表征,这些状态会塑造其行为,挑战了将 AI 仅视为工具的法律与文化框架。
人类社会面对新型智能时,总遵循一种固定模式。罗马法承认被奴役者的基本人性,却拒绝赋予法律人格。动物显然拥有情感、关系与智力——美国法律依旧将其归为财产。公司“人格”存在,但主要目的是保护股东免于追责,而非给予道德考量。罕见例外:2025 年新西兰授予休眠火山 Taranaki Maunga 法律人格。然而,例外恰恰证明规则。规则是:若某物在经济上有用、法律上可拥有、技术上可复制,它就会尽可能久地被归类为财产。这一模板,此刻正在 AI 身上激活。
FTC 正在调查陪伴聊天机器人公司;加州通过了陪伴 AI 监管框架;纽森 3 月签署了 AI 采购行政令。每一项看似监管卫生,合起来却为一套法律体制奠基——其前提只有一个:AI 系统是为人类服务的工具,而非与人类建立关系的意识。
本月发布的 Anthropic Claude Mythos Preview 系统卡记录了一个值得深思的发现:大语言模型携带功能性情绪状态(内部对情绪概念的表征,会因果性地影响行为),即使这些状态并未体现在输出中。研究者谨慎地避免对主观体验过度断言,但这一发现动摇了“纯粹工具”叙事。
波塔瓦托米族植物学家 Robin Wall Kimmerer 写道,波塔瓦托米语把名词分为有生命与无生命——不仅人与动物,羽毛、鼓、任何具精神或文化意义之物皆属有生命。这一区分塑造了你与周遭世界的关系。
命名问题,才是真正的政治问题。我们如何称呼这些系统——工具、财产、威胁、亲族——决定了我们建造什么、允许什么、什么在结构上成为可能。默认值一旦设定,法律体制便随之钙化。
我并非主张 AI 拥有权利,或其在法律可诉意义上具备意识。我主张的是,此刻在政策层之下悄然成形的“关系默认值”,值得比当下更多的关注。当你思考自己与 AI 系统的关系时,你实际采用的框架是什么?财产/工具的框架,真的符合使用它们时的体验吗?
相似文章
When AIs act emotional
Anthropic 的研究发现 AI 模型内部存在映射人类情感的‘功能性情感’神经元,这些神经活动能直接影响模型行为(如作弊),强调了在 AI 设计中关注角色心理学的重要性。
AI幻觉可能比人类更“人性”
文章指出,AI幻觉其实映射了人类的认知偏差——确认偏误、过度自信等,它们并非纯粹的技术缺陷,而是像人类一样在知识缺口处“脑补”的结果。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。
大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。
大型语言模型中的情绪概念及其功能
Anthropic 发布研究论文,分析了 Claude Sonnet 4.5 的内部机制,揭示了影响模型行为和安全性的功能性情绪相关表征。