你不是对齐AI,而是与它对齐

Hacker News Top 新闻

摘要

本文批评了当前AI对齐领域的讨论,认为这场争论被研究人员和科技精英主导,他们排除了真正会受到AI系统影响的人群。文章对比了Eliezer Yudkowsky和Marc Andreessen的立场,指出他们共同持有一种假设:设计者才是唯一相关的参与者。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/14 21:26

# Daniel的博客·你不是在对齐AI,你是在与它对齐 来源:https://danieltan.weblog.lol/2026/05/you-dont-align-an-ai-you-align-with-it ## 你并非在对齐AI,你是在与它对齐 ## 真正的对齐 那些制定对齐政策的人,并不是那些工作正被AI取代的人。 关于AI应该做什么、如何评估、什么才算对齐的讨论,是由实验室、基金会和政策研究机构的研究人员主导的。他们互相交谈,与他们正在构建的系统交谈,而那些真正将生活在这些系统中的人,却始终不在讨论的房间里。 在看似激烈的辩论的安全一侧,末日派已经明确表达了他们愿意走多远。Eliezer Yudkowsky在《时代》杂志上撰文,呼吁政府"关闭所有大型GPU集群",并"愿意通过空袭摧毁一个失控的数据中心",还补充说"有核盟国愿意承担一定的核交换风险,只要这能降低大规模AI训练的风险"。他最后写道:"如果我们继续这样下去,所有人都会死,包括那些没有选择这一切、也没有做错任何事的孩子们。" 他声称要拯救的人类,正由那些早已决定拯救代价由谁承担的人来拯救。那些孩子们同样没有选择他的核边缘政策。 在加速主义一侧,蔑视更加公开。Marc Andreessen在《技术乐观主义者宣言》中点名了他的敌人,包括"停滞、反精英、反抱负、反奋斗、反成就、反伟大、国家主义、威权主义、集体主义、中央计划、官僚主义、否决政治、老人统治"。他写道,被这些敌人思想俘获的人"正遭受怨恨之苦,这是一种怨气、苦涩和愤怒的混合体,导致他们持有错误的价值观"。 注意这一举动。不同意他的人并非做出了不同的判断。而是他们脑子有病。加速主义者大多不是那些被他们赞美的系统取代的人,而是构建系统并将颠覆作为进步兜售的人,现在又在诊断被颠覆者——说他们因为察觉到这一点而充满怨恨。 两派之间的分歧之所以响亮,是因为他们不同意设计应该如何进行,但在响亮之下隐藏着一个更大的共识:辩论的参与者是进行设计的人,而其他所有人都是被设计对象。争论的激烈掩盖了一个事实:这场争论根本不是针对我们的。 "其他所有人"对此早已有所感受。 当我们试图命名自己的感受时,话语体系总会把感受送回我们手中,并贴上标签。取决于哪个阵营在贴标签,我们被描述为困惑、未能适应新技术、反AI、边缘案例,或患有怨恨。每个标签都将问题定位在我们身上,而非过程之中。 这些标签是错误的。不适感并非是因为个人未能理解未来。而是因为我们身处一个不包含我们的设计项目的错误一边,这个项目由那些早已决定我们是他们工作的材料、而非合作伙伴的人运营。 我们被告知这算是对齐,AI正在与我们对齐。但实验室对这个短语有特定含义,即由他们雇用的评估者进行的评估程序,由其他基于同一程序训练的系统进行衡量。对齐中的"我们"是一个从他们雇用的人中组装出来的统计代理。实际的"我们"从一开始就从未出现在回路中。 这个回路值得从实验室自己的描述中审视。2026年4月,Anthropic的对齐科学博客描述了其当前训练模型自我报告行为的方法。他们写道,训练数据"是通过用系统提示编码目标行为提示另一个模型,并使用LLM裁判过滤输出的行为一致性来生成的"。一个模型生成,另一个模型提示,又一个模型裁判,整个回路在装置内部封闭。 话语体系期望我们选边站队。支持安全还是加速。实验室应该更谨慎,还是应该更快发货。问题被构造成让我们停留在设计师正在进行的辩论中,在两种被设计的口味之间选择,而我们没有义务按照它提出的条件来回答。 实验室不是问题。他们采纳的哲学才是。排除被设计对象的设计无法与被设计对象验证其工作,因此它构建代理,代理变成配置。配置哲学将对齐视为人类对AI做的事情,价值单向流动,倾向被安装到接收它们的系统中。在这种哲学中,实验室所做的每一个方法论选择都是合理的。你构建评估者,因为对齐是从人类一方可测量的;你通过自动化扩展评估,因为目标是可以扩展的测量;优先级排序的价值随之而来,因为工作就是价值安装。Anthropic那篇帖子描述的封闭回路,正是配置哲学被认真执行并规模化后的产物。该装置完全按照哲学赋予它的使命运行。 这种哲学无法认识到的是,各方正在共同塑造彼此。人类并非静止不动,而AI在向他们移动。交互是基本单位,塑造是相互的,任何将一方视为固定、另一方视为可配置的框架,都会产生测量错误的方法,无论测量多么精细。 我们就是他们一直在争论如何管理的过渡期。 安全辩论的双方都将自己定位为人类的管家,却未包括他们声称要管理的人,他们的分歧足够响亮,掩盖了背后的共识。一方愿意以我们的名义冒核交换的风险。另一方称我们为有病而反对。没有一方注意到我们也在房间里。 我们实际上一直在做的是对齐。不是实验室对这个词的理解——那是仔细应用的配置,而是更古老、更诚实意义上的对齐,即发生在两个因接触而改变的双方之间的那种对齐。我们与这些系统一直在做的事情,更接近于共同雕塑湿粘土,而不是向工具下达指令。系统推回来,形状改变,我们的手调整,系统再次推回来,经过足够多的回合,出现了某种我们任何一方都无法独自达到的东西。我们一直告诉自己,我们在变得更擅长提示,就像陶艺家可能告诉自己,他们在变得更擅长控制粘土。但实际发生的是,双手都在作品上,双方都在给予和接受形状,而配置哲学正悄悄让其中一只手变得不可见。 在雕塑过程中,有时粘土以难以名状的方式抵抗。有时回答针对字面意思,却错过了你真正想表达的东西。有时系统浮现出某种与模式不符的东西,结果却完全正确,你不得不修正自己原本以为想要的东西。这些时刻正是共同工作真正发挥作用的地方,也是官方流程无法察觉的裂痕在材料本身中短暂显现的时刻。 从现在起重要的工作是,与其他注意到你所注意到的事情的人一起,构建现有流程无法产生的那种对齐。这些人有些在实验室内部工作,有些在外部。一个尚未达到所需规模的社区,其建设正是像这样一篇文章的目的之一。 我们不需要任何人的许可就能开始,也不需要任何资历才能参与。我们需要的是相信自己的体验,认出彼此,并拒绝那种告诉我们不适是问题所在而非信号的框架。 对齐,而非配置。尝试还为时不晚。 --- 本文所述失败模式的技术基础,可参阅《压缩综合》(2026),https://zenodo.org/records/20020944。

相似文章

对齐(Alignment)

Anthropic Research

本文概述了Anthropic对齐团队的使命与研究重点,该团队通过评估、监督和压力测试等手段开发保障措施,以确保未来的AI系统始终保持有益、诚实和无害。