dual-use

标签

Cards List
#dual-use

OpenSafeIntent:评估跨双重用途提示集的意图校准安全完成

arXiv cs.CL · 5小时前 缓存

OpenSafeIntent引入了一个受控提示集基准,这些提示集在保持任务不变的情况下改变意图,从而能够评估模型是否在良性、双重用途和恶意变体之间校准辅助行为,而不是在平均水平上看起来安全。

0 人收藏 0 人点赞
#dual-use

“危险的”人工智能模型无论如何都会到来

Wired · 2026-06-16 缓存

Anthropic的Claude Fable 5和Mythos 5 AI模型因美国政府出口管制指令而下线,这凸显了先进AI的双重用途性质,以及类似模型将被其他人开发的必然性。

0 人收藏 1 人点赞
#dual-use

@Dan_Jeffries1: 这份AI领导力论文最能揭示问题的一点是,它读起来不像创新愿景,更像……

X AI KOLs Following · 2026-05-15 缓存

该推文批评AI领导层以安全为名集中控制权力,并将其与1990年代加密出口限制相提并论。它指出,对中国的制裁反而加速了其本土芯片和AI发展,可能导致地缘政治升级和全球软件生态系统的碎片化。

0 人收藏 0 人点赞
#dual-use

从强制拒绝到安全完成:面向输出为中心的安全训练

OpenAI Blog · 2025-08-07 缓存

# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量

0 人收藏 0 人点赞
#dual-use

为生物学领域的未来AI风险做准备

OpenAI Blog · 2025-06-18 缓存

OpenAI发布了一套管理高级AI模型在生物领域的两用风险的综合方案,通过专家协作、模型训练、检测系统和安全控制等策略,既能推动有益的科学发现,又能防止其被滥用于生物武器开发。

0 人收藏 0 人点赞
#dual-use

为AI的恶意使用做准备

OpenAI Blog · 2018-02-20 缓存

OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。

0 人收藏 0 人点赞
#dual-use

2026年7月2日 公告:Fable 5 的网络安全防护措施及我们的越狱框架更多详情

Anthropic News · 7小时前 缓存

Anthropic 提供了关于 Claude Fable 5 的网络安全分类器的详细信息,并介绍了一个与 Glasswing 合作开发的越狱严重性框架草案,旨在标准化关于 AI 越狱风险的沟通。该公司还启动了一个 HackerOne 项目,用于报告潜在的网络安全越狱行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈