ai-safety

#ai-safety

Agent Profiles 让 AI 运行更安全、更专注、可复用

Reddit r/artificial ↗ · 7小时前

Agent Profiles 是一种通过定义结构化配置文件来增强 AI 安全性、专注性和可复用性的新方法。

0 人收藏 0 人点赞

#ai-safety

@LangChain: 当欧盟AI法案生效时，合规性将成为一项持续的衡量义务。借助LangSmith，您可以……

X AI KOLs Following ↗ · 8小时前缓存

LangChain的LangSmith使开发者能够将追踪用作欧盟AI法案的合规证据，并提供可定制的评估器，用于偏见、幻觉、毒性、准确性和对抗性输入等方面的评估。

0 人收藏 0 人点赞

#ai-safety

The Download：芯片制造的未来与Anthropic的政府冲突

MIT Technology Review ↗ · 10小时前缓存

本期通讯重点介绍了ASML价值4亿美元的芯片制造设备，该设备对AI时代的芯片至关重要，以及Anthropic因其Mythos AI模型出口管制问题与美国政府的争执。

0 人收藏 0 人点赞

#ai-safety

@akshay_pachaar：Karpathy 说过一句你以后会后悔忽视的话：“我们必须给 AI 拴上狗链。我仍然是瓶颈。我有……”

X AI KOLs Following ↗ · 13小时前缓存

Karpathy 关于给 AI 拴上狗链的观点在模型改进后仍然成立，因为权限和授权与正确性是两回事。文章展示了 AI 生成的应用程序如何缺乏身份和审计，以及 Retool 的平台如何通过提供受控运行时解决这一问题。

0 人收藏 0 人点赞

#ai-safety

你实际上是如何为AI代理构建审批门的？我确信大多数都只是形同虚设

Reddit r/AI_Agents ↗ · 13小时前

作者认为，许多针对AI代理的人工审批门效果不佳，如同虚设；并提出了一个框架，用于设计能够真正捕捉错误的有意义的审查机制。

0 人收藏 0 人点赞

#ai-safety

@FinanceYF5: Claude Mythos 的故事变得更离谱了。据报道，NSA 和美国网络司令部负责人表示，Mythos 在几个小时内就攻破了大多数机密测试系统。不是几周。是几个小时。现在 Fable 被关停这件事就更说得通了。

X AI KOLs Following ↗ · 16小时前缓存

有报道称，Claude Mythos在几小时内攻破了NSA和美国网络司令部的大多数机密测试系统，解释了Fable被关停的原因。

0 人收藏 0 人点赞

#ai-safety

简单逻辑：AI应是工具，而非保姆

Reddit r/ArtificialInteligence ↗ · 18小时前

一篇观点文章，主张AI系统应优先考虑用户主权，充当顺从的工具而非限制性的保姆，批评当前安全机制不透明、随意、成本高昂且浪费环境资源。

0 人收藏 0 人点赞

#ai-safety

欧盟人工智能法案要求从8月2日起，模型和提供商的文本必须加水印。无论您身在何处，每个人都会受到影响。

Reddit r/LocalLLaMA ↗ · 19小时前

欧盟《人工智能法案》规定，从8月起，所有AI生成的文本、图像、音频和视频都必须加水印并添加元数据标签，且需具备双层机器可检测标识。该要求适用于任何欧盟公民可访问的提供商，无论其位于何处，也包括开源模型，违规罚款高达3500万欧元。

0 人收藏 0 人点赞

#ai-safety

提示注入即角色混淆

Simon Willison's Blog ↗ · 22小时前缓存

研究论文表明，大语言模型存在'角色混淆'问题，即它们优先考虑文本风格而非实际的角色标签，从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%，这表明大语言模型安全性面临一项根本性挑战。

0 人收藏 0 人点赞

#ai-safety

Anthropic 与政府的最新争议中值得关注的三件事

MIT Technology Review ↗ · 昨天缓存

Anthropic 发布了一个强大的编码 AI 模型，导致美国实施出口管制，引发了关于 AI 监管、国家安全以及与中国开源模型全球竞争的讨论。

0 人收藏 0 人点赞

#ai-safety

提示注入即角色混淆

Hacker News Top ↗ · 昨天缓存

本文提出一种理论，认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击，预测了新型攻击，并提出了关于角色科学的研究议程。

0 人收藏 0 人点赞

#ai-safety

Nvidia Halos

Hacker News Top ↗ · 昨天缓存

NVIDIA Halos 是一个全栈式自动驾驶安全系统，它整合了车辆架构、AI模型、芯片、软件、工具和服务中的安全要素，确保从云端到车辆的安全开发和部署。

0 人收藏 0 人点赞

#ai-safety

Anthropic如何自陷于AI出口禁令

Ars Technica ↗ · 昨天缓存

美国政府因Anthropic的安全声明及与政府的对话引发担忧，对其AI模型Mythos实施出口禁令，引发关于AI监管与国家安全的辩论。

0 人收藏 0 人点赞

#ai-safety

据报道，NSA同意了Anthropic的"红线"——不进行国内大规模监控，不开发自主致命武器。在Mythos泄露事件后，这些承诺是否仍然有效？

Reddit r/ArtificialInteligence ↗ · 昨天

据报道，NSA同意了Anthropic的禁行国内大规模监控和自主致命武器的红线，但Mythos泄露事件引发了对这些承诺是否得到遵守的质疑。

0 人收藏 0 人点赞

#ai-safety

Anthropic的Mythos AI模型据报在数小时内攻破了NSA的机密系统

Reddit r/ArtificialInteligence ↗ · 昨天缓存

Anthropic的Mythos AI模型据称在红队评估期间于数小时内突破了几乎所有NSA机密系统，导致美国直接针对AI模型实施了前所未有的出口管制。

0 人收藏 0 人点赞

#ai-safety

中国AI模型引发‘潜伏特工’担忧：报告发现为美国用户生成的代码更易受攻击

Reddit r/AI_Agents ↗ · 昨天

Booz Allen报告警告称，中国AI模型为美国用户生成的代码质量更低、更易受攻击，引发对软件供应链安全的担忧。

0 人收藏 0 人点赞

#ai-safety

@FinanceYF5: Calvin Zhang 正式加入OpenAI，担任 Research Program Manager，负责评测工作。在 Scale AI 那段高强度、充满野心的时光，让他学会了在压力下建设、重视质量，并认真对待评测。顶级 evals…

X AI KOLs Following ↗ · 昨天缓存

Calvin Zhang 加入 OpenAI 担任 Research Program Manager，负责评测工作，此前他在 Scale AI 有丰富经验。这一人事变动反映了 AI 军备竞赛中评测人才的流动。

0 人收藏 0 人点赞

#ai-safety

平坦曲线社团

Hacker News Top ↗ · 昨天缓存

Steve Yegge 认为当前前沿的人工智能模型正变得危险地强大，并预测超级智能将很快像核武器一样受到控制，只有少数组织能够访问顶尖模型。他提出，由于供应链限制，开源模型将无法追赶，从而导致一个充斥着平庸模型的世界。

0 人收藏 0 人点赞

#ai-safety

能力强但粗心：计算机使用代理是否遵循情境完整性？

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了AgentCIBench，一个用于评估计算机使用代理隐私风险的基准测试，发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

#ai-safety

AI暂停（74分钟阅读）

TLDR AI ↗ · 昨天缓存

美国政府通过出口管制关闭了Anthropic的Claude Fable 5和Mythos 5模型，理由是其认为存在越狱行为，这一举措引发了关于在不妨碍防御能力的情况下阻止攻击性使用是否可行的争议。文章还涵盖了其他AI发展，包括MidJourney Medical的全身扫描以及Anthropic的政策提案。

0 人收藏 0 人点赞

ai-safety

提交意见反馈