标签
Anthropic 撤销了其在 AI/ML 开发中的静默削弱政策,现在当请求被拒绝或重定向到能力较低的模型时,将通知用户。
Anthropic 道歉并撤销了一项政策,该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率,转而将保护措施公开化。
Anthropic 发布了 Claude Fable 5,这是其最新的人工智能模型,具有严格的基于话题的安全措施,防止它回答关于网络安全、生物学和化学等危险主题的查询;该模型可能会偶尔拒绝无害请求,但旨在防止恶意使用。
Claude Fable 5 已发布,据称在各项基准测试中达到最先进水平,并在质量上有改进,尤其在复杂长任务上。它与 Mythos 使用相同的基础模型,但增加了安全措施。
作者反思了将AI智能体从原型推向生产环境的挑战,得出结论:可靠的编排和安全保护机制比模型的渐进改进更为关键。
OpenAI 发布了更新的安全防护框架,更加聚焦于高风险 AI 能力,引入了更清晰的风险优先级标准,以及针对自主复制和隐瞒等新兴威胁的研究类别,同时保留了针对生物、化学和网络安全能力等已有的追踪类别。