safeguards

#safeguards

Anthropic 撤销针对 AI/ML 的静默削弱政策，将通知用户 [N]

Reddit r/MachineLearning ↗ · 4天前

Anthropic 撤销了其在 AI/ML 开发中的静默削弱政策，现在当请求被拒绝或重定向到能力较低的模型时，将通知用户。

0 人收藏 0 人点赞

#safeguards

Simon Willison's Blog ↗ · 4天前缓存

Anthropic 道歉并撤销了一项政策，该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率，转而将保护措施公开化。

0 人收藏 0 人点赞

#safeguards

Ars Technica ↗ · 5天前缓存

Anthropic 发布了 Claude Fable 5，这是其最新的人工智能模型，具有严格的基于话题的安全措施，防止它回答关于网络安全、生物学和化学等危险主题的查询；该模型可能会偶尔拒绝无害请求，但旨在防止恶意使用。

0 人收藏 0 人点赞

#safeguards

X AI KOLs ↗ · 5天前缓存

Claude Fable 5 已发布，据称在各项基准测试中达到最先进水平，并在质量上有改进，尤其在复杂长任务上。它与 Mythos 使用相同的基础模型，但增加了安全措施。

0 人收藏 0 人点赞

#safeguards

Reddit r/AI_Agents ↗ · 2026-05-31

作者反思了将AI智能体从原型推向生产环境的挑战，得出结论：可靠的编排和安全保护机制比模型的渐进改进更为关键。

0 人收藏 0 人点赞

#safeguards

OpenAI Blog ↗ · 2025-04-15 缓存

OpenAI 发布了更新的安全防护框架，更加聚焦于高风险 AI 能力，引入了更清晰的风险优先级标准，以及针对自主复制和隐瞒等新兴威胁的研究类别，同时保留了针对生物、化学和网络安全能力等已有的追踪类别。

0 人收藏 0 人点赞