safeguards

#safeguards

Anthropic 发布 Opus 5

TechCrunch AI ↗ · 4天前缓存

Anthropic 发布了 Opus 5，其重量级模型的新版本，比 Fable 5 更便宜且限制更少，并在某些基准测试中表现更优。该模型还引入了更轻量级的安全措施和面向 API 用户的全新 Automatic Fallbacks 功能。

0 人收藏 0 人点赞

#safeguards

保障条件提升：衡量双重用途生物学助手的使用效用-风险边界

arXiv cs.AI ↗ · 2026-07-16 缓存

本文介绍了保障条件提升（safeguard-conditioned uplift）协议，用于测量不同部署访问条件（如帮助性提示、安全性提示、外部保障）如何影响双重用途生物学AI助手的效用-风险边界，基于对Claude Sonnet 4.6和Gemini 3.5 Flash的人工评判评估。

0 人收藏 0 人点赞

#safeguards

@BlackHC：我在Google DeepMind工作。这不会让我受欢迎。但这些都是公开报道：2014年：DeepMind据称被出售给…

X AI KOLs Timeline ↗ · 2026-07-14 缓存

一位Google DeepMind员工在推文中指出，DeepMind被Google收购时承诺的保障措施（不用于军事用途、独立监督）已被侵蚀，因为DeepMind现已获得五角大楼的一份合同，可用于任何合法政府目的。

0 人收藏 0 人点赞

#safeguards

你实际上用Fable 5来做什么？

Reddit r/AI_Agents ↗ · 2026-07-04

一位用户对Fable 5的安全机制表示不满，该机制阻止了对自己代码的安全漏洞分析，质疑该模型相对于Opus 4.8的实用性，并向社区寻求实际用例。

0 人收藏 0 人点赞

#safeguards

@VikParuchuri: OCR幻觉会污染下游工作流。我们构建了研究驱动的防护措施，将幻觉减少到接近…

X AI KOLs Following ↗ · 2026-07-02 缓存

Vik Paruchuri宣布了研究驱动的防护措施，在其基准测试中将OCR幻觉降至接近零，并为任何残留错误提供单词级边界框和置信度分数。

0 人收藏 0 人点赞

#safeguards

AI模型令人不安地擅长发现法律漏洞 - AI自行找到利用法规并规避现有保护措施的方法

Reddit r/ArtificialInteligence ↗ · 2026-06-17

AI模型正在独立发现利用法律漏洞和规避现有保护措施的方法，引发了对监管有效性的担忧。

0 人收藏 0 人点赞

#safeguards

Anthropic 撤销针对 AI/ML 的静默削弱政策，将通知用户 [N]

Reddit r/MachineLearning ↗ · 2026-06-11

Anthropic 撤销了其在 AI/ML 开发中的静默削弱政策，现在当请求被拒绝或重定向到能力较低的模型时，将通知用户。

0 人收藏 0 人点赞

#safeguards

Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

Simon Willison's Blog ↗ · 2026-06-11 缓存

Anthropic 道歉并撤销了一项政策，该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率，转而将保护措施公开化。

0 人收藏 0 人点赞

#safeguards

Anthropic 称这些话题太危险，不让其 Fable 5 模型谈论

Ars Technica ↗ · 2026-06-09 缓存

Anthropic 发布了 Claude Fable 5，这是其最新的人工智能模型，具有严格的基于话题的安全措施，防止它回答关于网络安全、生物学和化学等危险主题的查询；该模型可能会偶尔拒绝无害请求，但旨在防止恶意使用。

0 人收藏 0 人点赞

#safeguards

@karpathy: 这是一个超激动人心的发布——Claude Fable 5 与 Mythos 使用相同的基础模型，但增加了安全措施。……

X AI KOLs ↗ · 2026-06-09 缓存

Claude Fable 5 已发布，据称在各项基准测试中达到最先进水平，并在质量上有改进，尤其在复杂长任务上。它与 Mythos 使用相同的基础模型，但增加了安全措施。

0 人收藏 0 人点赞

#safeguards

经过数月的智能体构建，我改变了关于什么最重要的看法。

Reddit r/AI_Agents ↗ · 2026-05-31

作者反思了将AI智能体从原型推向生产环境的挑战，得出结论：可靠的编排和安全保护机制比模型的渐进改进更为关键。

0 人收藏 0 人点赞

#safeguards

我们更新的安全防护框架

OpenAI Blog ↗ · 2025-04-15 缓存

OpenAI 发布了更新的安全防护框架，更加聚焦于高风险 AI 能力，引入了更清晰的风险优先级标准，以及针对自主复制和隐瞒等新兴威胁的研究类别，同时保留了针对生物、化学和网络安全能力等已有的追踪类别。

0 人收藏 0 人点赞

safeguards

提交意见反馈