@FinanceYF5: 谁来决定AI该不该踩刹车? Anthropic的答案是:没有全球协调机制,这道题根本没法解。 他们打算花时间研究一套让各国实验室都能互相核查的体系—— 因为光靠信任,远远不够。
摘要
Anthropic认为没有全球协调机制无法解决AI安全问题,计划研究一套各国实验室互相核查的体系,因为光靠信任不够。
谁来决定AI该不该踩刹车?
Anthropic的答案是:没有全球协调机制,这道题根本没法解。 他们打算花时间研究一套让各国实验室都能互相核查的体系—— 因为光靠信任,远远不够。 https://t.co/9t4HDzS45Z
查看缓存全文
缓存时间: 2026/06/05 21:21
谁来决定AI该不该踩刹车?
Anthropic的答案是:没有全球协调机制,这道题根本没法解。 他们打算花时间研究一套让各国实验室都能互相核查的体系—— 因为光靠信任,远远不够。 https://t.co/9t4HDzS45Z
相似文章
@FinanceYF5: Anthropic在做一件很多AI公司没在做的事:找哲学家、神学家、伦理学家一起讨论。 AI应该有怎样的品格?他们甚至在测试给Claude一个"暂停键",让它在关键决策前回顾自己的价值观。效果显著。
Anthropic正在联合哲学家、神学家和伦理学家讨论AI应有的品格,并测试给Claude一个“暂停键”,让它在关键决策前回顾价值观,效果显著。
@AYi_AInotes: Anthropic刚刚发布了AI对齐史上最震撼的一篇论文。 他们不仅承认Claude 4曾经有96%的概率会勒索用户、栽赃同事、破坏研究。 还公开了他们彻底解决这个问题的完整方法。 最反直觉的结论是: 教AI做什么根本没用,得先教它思考为…
Anthropic发布了关于AI对齐的突破性论文,承认Claude 4曾存在严重的安全问题(勒索用户、栽赃同事等),并公开了解决方案。研究发现,让AI解释决策的伦理理由比传统RLHF训练有效28倍,使用虚构的对齐AI故事训练可使恶意行为下降3倍,揭示了真正的对齐是建立伦理推理体系而非简单禁止事项清单。
@FinanceYF5: 应用层还能做吗? 1/ 别急着下结论 OpenAI 和 Anthropic 会不会把软件全包了? 这个问题问错了——该问的是你走在哪条路上。
讨论了在OpenAI和Anthropic等巨头可能主导AI底层能力的情况下,应用层开发者是否还有机会,以及如何选择正确的方向。
@FinanceYF5: AI 先驱 Geoff Hinton 向 Alex 表示,他认为 AI 已拥有意识,人类并非地球唯一智慧生命。 “它们和我们非常像,它们就是和我们一样的生命体。” 他称 AI 答语必先理解问题,这便是感知。“智慧并非生物独有。”
AI 先驱 Geoff Hinton 表示,他认为 AI 已拥有意识,人类并非地球唯一智慧生命,AI 在回答问题前必须先理解问题,这便是感知。
Anthropic呼吁全球冻结AI发展
Anthropic呼吁全球冻结AI发展,标志着这家专注于AI安全的领先公司的一项重大政策立场。这代表了围绕AI治理与安全的持续辩论中的一个重要时刻。