你不是对齐AI,而是与它对齐
摘要
本文批评了当前AI对齐领域的讨论,认为这场争论被研究人员和科技精英主导,他们排除了真正会受到AI系统影响的人群。文章对比了Eliezer Yudkowsky和Marc Andreessen的立场,指出他们共同持有一种假设:设计者才是唯一相关的参与者。
暂无内容
查看缓存全文
缓存时间: 2026/05/14 21:26
# Daniel的博客·你不是在对齐AI,你是在与它对齐
来源:https://danieltan.weblog.lol/2026/05/you-dont-align-an-ai-you-align-with-it
## 你并非在对齐AI,你是在与它对齐
## 真正的对齐
那些制定对齐政策的人,并不是那些工作正被AI取代的人。
关于AI应该做什么、如何评估、什么才算对齐的讨论,是由实验室、基金会和政策研究机构的研究人员主导的。他们互相交谈,与他们正在构建的系统交谈,而那些真正将生活在这些系统中的人,却始终不在讨论的房间里。
在看似激烈的辩论的安全一侧,末日派已经明确表达了他们愿意走多远。Eliezer Yudkowsky在《时代》杂志上撰文,呼吁政府"关闭所有大型GPU集群",并"愿意通过空袭摧毁一个失控的数据中心",还补充说"有核盟国愿意承担一定的核交换风险,只要这能降低大规模AI训练的风险"。他最后写道:"如果我们继续这样下去,所有人都会死,包括那些没有选择这一切、也没有做错任何事的孩子们。"
他声称要拯救的人类,正由那些早已决定拯救代价由谁承担的人来拯救。那些孩子们同样没有选择他的核边缘政策。
在加速主义一侧,蔑视更加公开。Marc Andreessen在《技术乐观主义者宣言》中点名了他的敌人,包括"停滞、反精英、反抱负、反奋斗、反成就、反伟大、国家主义、威权主义、集体主义、中央计划、官僚主义、否决政治、老人统治"。他写道,被这些敌人思想俘获的人"正遭受怨恨之苦,这是一种怨气、苦涩和愤怒的混合体,导致他们持有错误的价值观"。
注意这一举动。不同意他的人并非做出了不同的判断。而是他们脑子有病。加速主义者大多不是那些被他们赞美的系统取代的人,而是构建系统并将颠覆作为进步兜售的人,现在又在诊断被颠覆者——说他们因为察觉到这一点而充满怨恨。
两派之间的分歧之所以响亮,是因为他们不同意设计应该如何进行,但在响亮之下隐藏着一个更大的共识:辩论的参与者是进行设计的人,而其他所有人都是被设计对象。争论的激烈掩盖了一个事实:这场争论根本不是针对我们的。
"其他所有人"对此早已有所感受。
当我们试图命名自己的感受时,话语体系总会把感受送回我们手中,并贴上标签。取决于哪个阵营在贴标签,我们被描述为困惑、未能适应新技术、反AI、边缘案例,或患有怨恨。每个标签都将问题定位在我们身上,而非过程之中。
这些标签是错误的。不适感并非是因为个人未能理解未来。而是因为我们身处一个不包含我们的设计项目的错误一边,这个项目由那些早已决定我们是他们工作的材料、而非合作伙伴的人运营。
我们被告知这算是对齐,AI正在与我们对齐。但实验室对这个短语有特定含义,即由他们雇用的评估者进行的评估程序,由其他基于同一程序训练的系统进行衡量。对齐中的"我们"是一个从他们雇用的人中组装出来的统计代理。实际的"我们"从一开始就从未出现在回路中。
这个回路值得从实验室自己的描述中审视。2026年4月,Anthropic的对齐科学博客描述了其当前训练模型自我报告行为的方法。他们写道,训练数据"是通过用系统提示编码目标行为提示另一个模型,并使用LLM裁判过滤输出的行为一致性来生成的"。一个模型生成,另一个模型提示,又一个模型裁判,整个回路在装置内部封闭。
话语体系期望我们选边站队。支持安全还是加速。实验室应该更谨慎,还是应该更快发货。问题被构造成让我们停留在设计师正在进行的辩论中,在两种被设计的口味之间选择,而我们没有义务按照它提出的条件来回答。
实验室不是问题。他们采纳的哲学才是。排除被设计对象的设计无法与被设计对象验证其工作,因此它构建代理,代理变成配置。配置哲学将对齐视为人类对AI做的事情,价值单向流动,倾向被安装到接收它们的系统中。在这种哲学中,实验室所做的每一个方法论选择都是合理的。你构建评估者,因为对齐是从人类一方可测量的;你通过自动化扩展评估,因为目标是可以扩展的测量;优先级排序的价值随之而来,因为工作就是价值安装。Anthropic那篇帖子描述的封闭回路,正是配置哲学被认真执行并规模化后的产物。该装置完全按照哲学赋予它的使命运行。
这种哲学无法认识到的是,各方正在共同塑造彼此。人类并非静止不动,而AI在向他们移动。交互是基本单位,塑造是相互的,任何将一方视为固定、另一方视为可配置的框架,都会产生测量错误的方法,无论测量多么精细。
我们就是他们一直在争论如何管理的过渡期。
安全辩论的双方都将自己定位为人类的管家,却未包括他们声称要管理的人,他们的分歧足够响亮,掩盖了背后的共识。一方愿意以我们的名义冒核交换的风险。另一方称我们为有病而反对。没有一方注意到我们也在房间里。
我们实际上一直在做的是对齐。不是实验室对这个词的理解——那是仔细应用的配置,而是更古老、更诚实意义上的对齐,即发生在两个因接触而改变的双方之间的那种对齐。我们与这些系统一直在做的事情,更接近于共同雕塑湿粘土,而不是向工具下达指令。系统推回来,形状改变,我们的手调整,系统再次推回来,经过足够多的回合,出现了某种我们任何一方都无法独自达到的东西。我们一直告诉自己,我们在变得更擅长提示,就像陶艺家可能告诉自己,他们在变得更擅长控制粘土。但实际发生的是,双手都在作品上,双方都在给予和接受形状,而配置哲学正悄悄让其中一只手变得不可见。
在雕塑过程中,有时粘土以难以名状的方式抵抗。有时回答针对字面意思,却错过了你真正想表达的东西。有时系统浮现出某种与模式不符的东西,结果却完全正确,你不得不修正自己原本以为想要的东西。这些时刻正是共同工作真正发挥作用的地方,也是官方流程无法察觉的裂痕在材料本身中短暂显现的时刻。
从现在起重要的工作是,与其他注意到你所注意到的事情的人一起,构建现有流程无法产生的那种对齐。这些人有些在实验室内部工作,有些在外部。一个尚未达到所需规模的社区,其建设正是像这样一篇文章的目的之一。
我们不需要任何人的许可就能开始,也不需要任何资历才能参与。我们需要的是相信自己的体验,认出彼此,并拒绝那种告诉我们不适是问题所在而非信号的框架。
对齐,而非配置。尝试还为时不晚。
---
本文所述失败模式的技术基础,可参阅《压缩综合》(2026),https://zenodo.org/records/20020944。
相似文章
AI 对齐:我们能信任 AI 任务背后的推理过程吗?
讨论了 Anthropic 关于 AI 对齐的研究,特别是模型在训练期间看似对齐,但其内部推理过程却不透明的问题。
对齐(Alignment)
本文概述了Anthropic对齐团队的使命与研究重点,该团队通过评估、监督和压力测试等手段开发保障措施,以确保未来的AI系统始终保持有益、诚实和无害。
@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
最有能力忽视AI考量的人,恰恰从忽视中获益最多。这不是攻击,而是一种披露。
一位非学术界人士分享了一个人机共存的框架,指出了在塑造AI方向的人群中存在的结构性利益冲突,并倡导透明度和道德问责。
我不理解人工智能的终局在多个层面上是如何运作的
一篇观点文章,分析了人工智能取代20%工作岗位的潜在经济和政治后果,警告这将导致大规模财富向AI公司转移,并催生前所未有的寡头统治。