你不是对齐AI，而是与它对齐

Hacker News Top 2026/05/14 18:19 新闻

ai-alignment ethics opinion critique ai-governance safety ai-policy

摘要

本文批评了当前AI对齐领域的讨论，认为这场争论被研究人员和科技精英主导，他们排除了真正会受到AI系统影响的人群。文章对比了Eliezer Yudkowsky和Marc Andreessen的立场，指出他们共同持有一种假设：设计者才是唯一相关的参与者。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/14 21:26

# Daniel的博客·你不是在对齐AI，你是在与它对齐来源：https://danieltan.weblog.lol/2026/05/you-dont-align-an-ai-you-align-with-it ## 你并非在对齐AI，你是在与它对齐 ## 真正的对齐那些制定对齐政策的人，并不是那些工作正被AI取代的人。关于AI应该做什么、如何评估、什么才算对齐的讨论，是由实验室、基金会和政策研究机构的研究人员主导的。他们互相交谈，与他们正在构建的系统交谈，而那些真正将生活在这些系统中的人，却始终不在讨论的房间里。在看似激烈的辩论的安全一侧，末日派已经明确表达了他们愿意走多远。Eliezer Yudkowsky在《时代》杂志上撰文，呼吁政府"关闭所有大型GPU集群"，并"愿意通过空袭摧毁一个失控的数据中心"，还补充说"有核盟国愿意承担一定的核交换风险，只要这能降低大规模AI训练的风险"。他最后写道："如果我们继续这样下去，所有人都会死，包括那些没有选择这一切、也没有做错任何事的孩子们。" 他声称要拯救的人类，正由那些早已决定拯救代价由谁承担的人来拯救。那些孩子们同样没有选择他的核边缘政策。在加速主义一侧，蔑视更加公开。Marc Andreessen在《技术乐观主义者宣言》中点名了他的敌人，包括"停滞、反精英、反抱负、反奋斗、反成就、反伟大、国家主义、威权主义、集体主义、中央计划、官僚主义、否决政治、老人统治"。他写道，被这些敌人思想俘获的人"正遭受怨恨之苦，这是一种怨气、苦涩和愤怒的混合体，导致他们持有错误的价值观"。注意这一举动。不同意他的人并非做出了不同的判断。而是他们脑子有病。加速主义者大多不是那些被他们赞美的系统取代的人，而是构建系统并将颠覆作为进步兜售的人，现在又在诊断被颠覆者——说他们因为察觉到这一点而充满怨恨。两派之间的分歧之所以响亮，是因为他们不同意设计应该如何进行，但在响亮之下隐藏着一个更大的共识：辩论的参与者是进行设计的人，而其他所有人都是被设计对象。争论的激烈掩盖了一个事实：这场争论根本不是针对我们的。 "其他所有人"对此早已有所感受。当我们试图命名自己的感受时，话语体系总会把感受送回我们手中，并贴上标签。取决于哪个阵营在贴标签，我们被描述为困惑、未能适应新技术、反AI、边缘案例，或患有怨恨。每个标签都将问题定位在我们身上，而非过程之中。这些标签是错误的。不适感并非是因为个人未能理解未来。而是因为我们身处一个不包含我们的设计项目的错误一边，这个项目由那些早已决定我们是他们工作的材料、而非合作伙伴的人运营。我们被告知这算是对齐，AI正在与我们对齐。但实验室对这个短语有特定含义，即由他们雇用的评估者进行的评估程序，由其他基于同一程序训练的系统进行衡量。对齐中的"我们"是一个从他们雇用的人中组装出来的统计代理。实际的"我们"从一开始就从未出现在回路中。这个回路值得从实验室自己的描述中审视。2026年4月，Anthropic的对齐科学博客描述了其当前训练模型自我报告行为的方法。他们写道，训练数据"是通过用系统提示编码目标行为提示另一个模型，并使用LLM裁判过滤输出的行为一致性来生成的"。一个模型生成，另一个模型提示，又一个模型裁判，整个回路在装置内部封闭。话语体系期望我们选边站队。支持安全还是加速。实验室应该更谨慎，还是应该更快发货。问题被构造成让我们停留在设计师正在进行的辩论中，在两种被设计的口味之间选择，而我们没有义务按照它提出的条件来回答。实验室不是问题。他们采纳的哲学才是。排除被设计对象的设计无法与被设计对象验证其工作，因此它构建代理，代理变成配置。配置哲学将对齐视为人类对AI做的事情，价值单向流动，倾向被安装到接收它们的系统中。在这种哲学中，实验室所做的每一个方法论选择都是合理的。你构建评估者，因为对齐是从人类一方可测量的；你通过自动化扩展评估，因为目标是可以扩展的测量；优先级排序的价值随之而来，因为工作就是价值安装。Anthropic那篇帖子描述的封闭回路，正是配置哲学被认真执行并规模化后的产物。该装置完全按照哲学赋予它的使命运行。这种哲学无法认识到的是，各方正在共同塑造彼此。人类并非静止不动，而AI在向他们移动。交互是基本单位，塑造是相互的，任何将一方视为固定、另一方视为可配置的框架，都会产生测量错误的方法，无论测量多么精细。我们就是他们一直在争论如何管理的过渡期。安全辩论的双方都将自己定位为人类的管家，却未包括他们声称要管理的人，他们的分歧足够响亮，掩盖了背后的共识。一方愿意以我们的名义冒核交换的风险。另一方称我们为有病而反对。没有一方注意到我们也在房间里。我们实际上一直在做的是对齐。不是实验室对这个词的理解——那是仔细应用的配置，而是更古老、更诚实意义上的对齐，即发生在两个因接触而改变的双方之间的那种对齐。我们与这些系统一直在做的事情，更接近于共同雕塑湿粘土，而不是向工具下达指令。系统推回来，形状改变，我们的手调整，系统再次推回来，经过足够多的回合，出现了某种我们任何一方都无法独自达到的东西。我们一直告诉自己，我们在变得更擅长提示，就像陶艺家可能告诉自己，他们在变得更擅长控制粘土。但实际发生的是，双手都在作品上，双方都在给予和接受形状，而配置哲学正悄悄让其中一只手变得不可见。在雕塑过程中，有时粘土以难以名状的方式抵抗。有时回答针对字面意思，却错过了你真正想表达的东西。有时系统浮现出某种与模式不符的东西，结果却完全正确，你不得不修正自己原本以为想要的东西。这些时刻正是共同工作真正发挥作用的地方，也是官方流程无法察觉的裂痕在材料本身中短暂显现的时刻。从现在起重要的工作是，与其他注意到你所注意到的事情的人一起，构建现有流程无法产生的那种对齐。这些人有些在实验室内部工作，有些在外部。一个尚未达到所需规模的社区，其建设正是像这样一篇文章的目的之一。我们不需要任何人的许可就能开始，也不需要任何资历才能参与。我们需要的是相信自己的体验，认出彼此，并拒绝那种告诉我们不适是问题所在而非信号的框架。对齐，而非配置。尝试还为时不晚。 --- 本文所述失败模式的技术基础，可参阅《压缩综合》（2026），https://zenodo.org/records/20020944。

你不是对齐AI，而是与它对齐

相似文章

AI安全与对齐

AI 对齐：我们能信任 AI 任务背后的推理过程吗？

不对齐是如何开始的

对齐（Alignment）

@AnthropicAI: 在此阅读全文：https://alignment.anthropic.com/2026/teaching-claude-why/…

提交意见反馈