人工智能信任建立措施:研讨会论文集
摘要
OpenAI 和加州大学伯克利分校举办的人工智能信任建立措施研讨会汇集了各方利益相关者,旨在制定策略以缓解基础模型带来的地缘政治风险,并确定了六项关键措施,包括危机热线、事件信息共享、模型透明度、内容溯源、红队测试和数据集共享。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:54
# 人工智能信心建立措施:研讨会论文集
来源:https://openai.com/index/confidence-building-measures-for-artificial-intelligence/
## 摘要
基础模型最终可能会为破坏国家安全引入多条途径:事故、无意升级、无意冲突、武器扩散以及对人类外交的干涉只是长长清单中的几项。OpenAI地缘政治团队和加州大学伯克利风险与安全实验室联合主办的人工智能信心建立措施研讨会汇聚了多方利益攸关者,共同思考如何减轻基础模型对国际安全造成的潜在风险。信心建立措施(CBMs)起源于冷战,是指减少敌意、防止冲突升级和增进各方信任的行动。CBMs的灵活性使其成为应对基础模型生态快速变化的关键工具。与会者确定了以下直接适用于基础模型的CBMs,这些措施在本会议论文集中有进一步的解释:1. 危机热线 2. 事件共享 3. 模型、透明度和系统卡 4. 内容来源追踪和水印 5. 合作红队测试和桌面演练 6. 数据集和评估共享。由于大多数基础模型开发者都是非政府实体,许多CBMs需要涉及更广泛的利益攸关者社群。这些措施可以由AI实验室或相关政府部门实施。
相似文章
具体的AI安全问题
OpenAI、伯克利和斯坦福的研究人员共同撰写了一篇基础性论文,指出了现代AI系统中的五个具体安全问题:安全探索、对分布偏移的鲁棒性、避免负面副作用、防止奖励黑客和可扩展的监督。
为AI的恶意使用做准备
OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。
OpenAI创造了智能。谁来建立信任?
AutoFlow讨论了AI信任的关键挑战,提出了外部验证方法,如知识图谱和数学一致性检查,并宣布加入NVIDIA Inception计划,以推进可信AI系统的研究。
OpenAI 安全实践
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现
AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。