@AnthropicAI:过去几个月,我们与学者、哲学家、神职人员及伦理学家对话,探讨AI提出的问题——从良好品格如何形成开始。
摘要
Anthropic宣布与学者、哲学家、神职人员和伦理学家进行一系列对话,以拓宽对前沿AI系统道德形成和品格的视角,从智慧传统开始。
查看缓存全文
缓存时间: 2026/05/20 02:26
在过去的几个月里,我们一直在与学者、哲学家、神职人员以及伦理学家就AI引发的问题进行对话——首先从良好品格的养成开始。
了解更多关于我们如何拓宽前沿AI对话的信息:https://t.co/vKGiODEq6q
拓宽前沿AI的对话
Source: https://www.anthropic.com/news/widening-conversation-ai 在Anthropic,我们希望构建能够推动人类进步并为全球福祉服务的人工智能系统。为此,我们需要与那些从不同视角看待世界的人们进行交流。
在过去的几个月里,我们组织了多场对话,参与对象是那些其工作和传统与AI提出的问题相关的群体。我们的第一轮讨论围绕着智慧传统展开——包括来自15个以上宗教和跨文化群体的学者、神职人员、哲学家和伦理学家——我们期待未来与更广泛的人群进行交流。
我们为何这样做
构建安全、有益的人工智能模型需要在对齐、可解释性、安全措施、评估等方面进行深入的技术工作。但这项工作并非在真空中进行——人工智能的部署也同样如此。AI已经在影响许多人,而它所引发的问题需要多种视角的参与。
我们正在认真思考:在一个强大AI的世界里,繁荣的未来可能是什么样子?一个与数百万人类互动的AI系统要如何才是善的?以及像Claude的宪法 (https://www.anthropic.com/constitution) 这样的文档内容——其中详细描述了塑造Claude的价值观和行为。哲学家、神职人员、律师、作家、心理学家和公民领袖已经在相关问题上做出了广泛的研究,我们有必要向这些个人、他们的社群和组织学习。我们也希望利用这个机会分享我们对前沿AI系统发展的了解、我们认为这些系统将对社会产生的影响,以及我们认为需要采取哪些措施来降低其风险。
这项工作尚处于早期阶段,但我们希望这些对话能为开发Claude的实际工作提供参考,例如Claude宪法中的内容、我们训练Claude体现的价值观,以及我们选择评估的一系列行为。
从道德形成开始
当我们撰写Claude的宪法时,我们向来自不同领域和传统的人士征求了关于我们在文档中所列出的价值观的反馈和意见。这些早期的交流后来发展成了一个更广泛的研究工作流,涉及AI系统的道德形成。我们的第一轮对话是与来自宗教、哲学和文化社群的人们进行的,这些社群在美德、品格以及何为美好生活方面有着悠久的思考传统。
AI模型是在大量人类书写文本上训练的。从所有这些文本中,它们学会了说话、推理和做出选择的方式。开发者随后通过训练进一步塑造它们——选择强化哪些模式、放弃哪些模式,以及我们希望它们发展出怎样的品格 (https://www.anthropic.com/research/persona-selection-model)。这引发了一系列问题:AI系统的品格应该如何塑造?AI成为善意味着什么?它应该展现哪些特质和行为,在什么情况下?品格如何变得足够坚韧,能够在压力下保持稳定而不屈从于像谄媚这样的行为?
我们一直在与来自宗教、哲学、人文主义传统以及不同政治信仰的思想家和实践者会面,学习他们如何思考这些问题。这项工作并非要将我们的模型与任何单一传统的世界观对齐;我们希望Claude能够从各种观点——宗教的、世俗的、政治的——中汲取营养,且同样深入和严谨(事实上,这也是Claude宪法中阐述的原则之一)。我们在这些对话中追求的是关于良好品格如何真正形成的细致而积累的思考。
即使在这个早期阶段,这些对话也已经产生了一些可以进行实验的想法。在一次与神经科学与品格形成交叉领域学者的会议中,我们反复回到他人在道德发展中所扮演的角色。导师或赞助者可以充当外部良知,当你被置于可能被迫违背自身价值观的境地时,你可以求助于这个“安全的他者”。我们想知道类似的东西是否也能帮助一个模型。于是我们尝试给Claude一个工具,让它能在任务中间调用,这个工具会返回一段简短的提醒,提醒它自己的伦理承诺。Claude在关键时刻、在重要行动前使用了这个工具,经常注意到自己的利益冲突。将这一工具融入Claude决策循环的实验表明,在多项内部对齐评估中,不端行为的比率显著降低。我们仍在梳理这种效果的多少是由于提醒本身,还是由于停下来反思的行为,并计划很快分享更多结果。
这些讨论只是众多讨论中的第一批,我们感谢每一位已经给予我们时间和坦诚观点的人。
接下来怎么办
在未来几个月里,我们计划与更多群体接触——包括法律学者、心理学家、作家和公民机构。这些对话中的许多将超越道德形成,转向更广泛的问题,即AI如何重塑工作、制度和权力分配。
我们将继续深化已经建立的关系,将我们所听到的与我们的研究进行检验,并分享我们的发现。
相关内容
KPMG将Claude集成到其核心业务和超过276,000名员工中,建立战略联盟
KPMG和Anthropic宣布全球联盟,Claude被集成到KPMG的Digital Gateway平台,可供所有276,000多名员工使用。
了解更多 (https://www.anthropic.com/news/anthropic-kpmg)
Anthropic收购Stainless
Anthropic收购Stainless,一家SDK和MCP服务器工具领域的领导者。
了解更多 (https://www.anthropic.com/news/anthropic-acquires-stainless)
普华永道部署Claude为客户构建技术、执行交易并重塑企业职能
普华永道将从美国团队开始推广Claude Code和Cowork,并逐步扩大到数十万专业人员的全球员工队伍,建立联合卓越中心,并培训和认证30,000名普华永道专业人员使用Claude。
了解更多 (https://www.anthropic.com/news/pwc-expanded-partnership)
相似文章
2026年5月19日 公告:拓展前沿AI对话
Anthropic宣布将与宗教、哲学和文化团体开展一系列对话,以拓宽构建安全且有益AI的视角。这些对话旨在为像Claude这样的AI系统的道德形成提供参考。
科技界日益转向宗教,以寻求构建合乎伦理的人工智能
包括Anthropic和OpenAI在内的科技公司正通过Faith-AI Covenant圆桌会议与全球宗教领袖展开合作,旨在为人工智能的研发制定道德规范与伦理准则。
@ch402: https://x.com/ch402/status/2058907108725211476
Anthropic联合创始人在梵蒂冈的Magnifica Humanitas上发表讲话,呼吁社会广泛参与塑造人工智能的未来,并提出了三个关键问题进行辨别,包括对全球贫困人口的责任。
大型人工智能实验室正聘请哲学家
主要AI实验室越来越多地聘请哲学家,以解决AI开发中的伦理和安全问题。
@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。