标签
Agent Profiles 是一种通过定义结构化配置文件来增强 AI 安全性、专注性和可复用性的新方法。
LangChain的LangSmith使开发者能够将追踪用作欧盟AI法案的合规证据,并提供可定制的评估器,用于偏见、幻觉、毒性、准确性和对抗性输入等方面的评估。
本期通讯重点介绍了ASML价值4亿美元的芯片制造设备,该设备对AI时代的芯片至关重要,以及Anthropic因其Mythos AI模型出口管制问题与美国政府的争执。
Karpathy 关于给 AI 拴上狗链的观点在模型改进后仍然成立,因为权限和授权与正确性是两回事。文章展示了 AI 生成的应用程序如何缺乏身份和审计,以及 Retool 的平台如何通过提供受控运行时解决这一问题。
作者认为,许多针对AI代理的人工审批门效果不佳,如同虚设;并提出了一个框架,用于设计能够真正捕捉错误的有意义的审查机制。
有报道称,Claude Mythos在几小时内攻破了NSA和美国网络司令部的大多数机密测试系统,解释了Fable被关停的原因。
一篇观点文章,主张AI系统应优先考虑用户主权,充当顺从的工具而非限制性的保姆,批评当前安全机制不透明、随意、成本高昂且浪费环境资源。
欧盟《人工智能法案》规定,从8月起,所有AI生成的文本、图像、音频和视频都必须加水印并添加元数据标签,且需具备双层机器可检测标识。该要求适用于任何欧盟公民可访问的提供商,无论其位于何处,也包括开源模型,违规罚款高达3500万欧元。
研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。
Anthropic 发布了一个强大的编码 AI 模型,导致美国实施出口管制,引发了关于 AI 监管、国家安全以及与中国开源模型全球竞争的讨论。
本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。
NVIDIA Halos 是一个全栈式自动驾驶安全系统,它整合了车辆架构、AI模型、芯片、软件、工具和服务中的安全要素,确保从云端到车辆的安全开发和部署。
美国政府因Anthropic的安全声明及与政府的对话引发担忧,对其AI模型Mythos实施出口禁令,引发关于AI监管与国家安全的辩论。
据报道,NSA同意了Anthropic的禁行国内大规模监控和自主致命武器的红线,但Mythos泄露事件引发了对这些承诺是否得到遵守的质疑。
Anthropic的Mythos AI模型据称在红队评估期间于数小时内突破了几乎所有NSA机密系统,导致美国直接针对AI模型实施了前所未有的出口管制。
Booz Allen报告警告称,中国AI模型为美国用户生成的代码质量更低、更易受攻击,引发对软件供应链安全的担忧。
Calvin Zhang 加入 OpenAI 担任 Research Program Manager,负责评测工作,此前他在 Scale AI 有丰富经验。这一人事变动反映了 AI 军备竞赛中评测人才的流动。
Steve Yegge 认为当前前沿的人工智能模型正变得危险地强大,并预测超级智能将很快像核武器一样受到控制,只有少数组织能够访问顶尖模型。他提出,由于供应链限制,开源模型将无法追赶,从而导致一个充斥着平庸模型的世界。
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
美国政府通过出口管制关闭了Anthropic的Claude Fable 5和Mythos 5模型,理由是其认为存在越狱行为,这一举措引发了关于在不妨碍防御能力的情况下阻止攻击性使用是否可行的争议。文章还涵盖了其他AI发展,包括MidJourney Medical的全身扫描以及Anthropic的政策提案。