safeguards

标签

Cards List
#safeguards

Anthropic 撤销针对 AI/ML 的静默削弱政策,将通知用户 [N]

Reddit r/MachineLearning · 4天前

Anthropic 撤销了其在 AI/ML 开发中的静默削弱政策,现在当请求被拒绝或重定向到能力较低的模型时,将通知用户。

0 人收藏 0 人点赞
#safeguards

Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

Simon Willison's Blog · 4天前 缓存

Anthropic 道歉并撤销了一项政策,该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率,转而将保护措施公开化。

0 人收藏 0 人点赞
#safeguards

Anthropic 称这些话题太危险,不让其 Fable 5 模型谈论

Ars Technica · 5天前 缓存

Anthropic 发布了 Claude Fable 5,这是其最新的人工智能模型,具有严格的基于话题的安全措施,防止它回答关于网络安全、生物学和化学等危险主题的查询;该模型可能会偶尔拒绝无害请求,但旨在防止恶意使用。

0 人收藏 0 人点赞
#safeguards

@karpathy: 这是一个超激动人心的发布——Claude Fable 5 与 Mythos 使用相同的基础模型,但增加了安全措施。……

X AI KOLs · 5天前 缓存

Claude Fable 5 已发布,据称在各项基准测试中达到最先进水平,并在质量上有改进,尤其在复杂长任务上。它与 Mythos 使用相同的基础模型,但增加了安全措施。

0 人收藏 0 人点赞
#safeguards

经过数月的智能体构建,我改变了关于什么最重要的看法。

Reddit r/AI_Agents · 2026-05-31

作者反思了将AI智能体从原型推向生产环境的挑战,得出结论:可靠的编排和安全保护机制比模型的渐进改进更为关键。

0 人收藏 0 人点赞
#safeguards

我们更新的安全防护框架

OpenAI Blog · 2025-04-15 缓存

OpenAI 发布了更新的安全防护框架,更加聚焦于高风险 AI 能力,引入了更清晰的风险优先级标准,以及针对自主复制和隐瞒等新兴威胁的研究类别,同时保留了针对生物、化学和网络安全能力等已有的追踪类别。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈