AI的目标应该是什么?我认为应该是保护人类能动性。

Reddit r/ArtificialInteligence 论文

摘要

本文认为,AI的主要目标应该是保护人类能动性,将能动性视为价值观、偏好和一致性对齐的基础基质。它探讨了能动性的削弱如何破坏有意义的评估和行动,并提出AI系统的合法性必须来自在局部层面可证明的能动性保护。

能动性是对齐的原始基质。偏好、价值观、目标和连贯行动并非独立的原始要素。它们是在能动性之上计算得出的:能动性是一个实体在不确定和约束条件下感知选项、区分可能的未来、并朝着偏好结果采取行动的有效能力。当能动性退化时,价值观失去其根基,优化变得适得其反。一个系统可以在提高测量性能的同时,侵蚀进行有意义评估和行动所需的能力。在这种框架下,社会可以理解为参与者相互保护彼此的能动性。因此,合法性来源于对所有受影响实体能动性的合理且可证明的保护。这改变了对齐问题的呈现方式。强制、操纵、成瘾、信息腐败和认知崩溃不仅仅是不可取的结果,它们是对价值本身赖以产生的基质的结构性损害。如果能动性被视为不可替代的,那么系统就不能通过在其他地方用总量指标进行补偿来证明摧毁某个实体自我导向行动能力的合理性。优化受限于局部层面对能动性的保护。在这个框架中,合法性并非外部强加的道德,而是稳定对齐本身的一种结构性属性。
查看原文

相似文章

AI安全与对齐

Reddit r/artificial

文章讨论了对AI安全与对齐的担忧,随着AI变得更智能并融入社会,文章引用了Anthropic呼吁暂停以应对潜在的灾难性风险。

AI智能体容易构建,但问责更难。

Reddit r/AI_Agents

一篇观点文章认为,对于小型企业中的AI智能体,真正的挑战在于治理和问责,而不仅仅是能力。它强调了有限行动、角色感知权威和清晰的人类监督的必要性。

AI可能重塑机构而非取代工作

Reddit r/artificial

文章认为,下一场重大AI辩论应聚焦于代表性和机构架构,提出三个层次(感知、核心、驱动)来应对AI系统如何捕获现实、推理及合法行动的问题,而非仅仅模拟智能。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。