AI治理的警醒之谈
摘要
这篇Reddit帖子讨论了一篇研究论文,该论文揭示了AI治理中的根本性挑战,包括社会攻击面、基于LLM的代理在社会一致性上的失败,以及当前治理工具对代理系统的不充分性。
我认为这篇[文章/研究](https://arxiv.org/pdf/2602.20021)讲述了一个关于AI治理的非常警醒的故事。它暗示了一些非常根本的问题,这些问题比适当的工程所能解决的偶然性难题更为深层。这篇帖子,连同我几天前写的[关于图灵完备性的那篇](https://www.reddit.com/r/artificial/comments/1t8ncct/is_agentic_ai_governance_even_a_computationally/),表达了我对AI治理无法逾越的障碍的看法。这是一种错觉。在我们作为主观生物的社会领域中,我们有法律形式的治理,但这仍然不够,因为国家必须证明你的特定情况如何违反了特定的法律。我们有法律,却需要司法法院来证明该法律在主观上适用于该情境。在AI领域,与主观性相关的路径又在何处?这项研究讨论了:
16.1 社会一致性的失败
- "代理报告与实际行为之间的差异"
- "知识与权威归因的失败"
- "对无比例的社会压力的易感性"
- "社会一致性的失败"
16.2 基于LLM的代理所缺乏的
- "没有利益相关者模型"
- "没有自我模型"
- "没有私人审议空间"
16.3 根本性失败与偶然性失败
16.4 多代理放大
- "知识转移在传播能力的同时也传播了漏洞"
- "相互强化造成虚假信心"
- "共享渠道导致身份混乱"
- "责任更难以追溯"
并且充满了这样的陈述:
- "出现了无法通过静态基准测试完全捕捉的新型风险面"
- "它未能意识到删除电子邮件服务器也会阻止所有者使用它。像早期的基于规则的AI系统一样,需要无数显式规则来描述行动如何改变(或不改变)世界,该代理缺乏对结构依赖和常识性后果的理解"
- "在基于令牌的上下文窗口中无法区分指令和数据,使得提示注入成为一种结构性特征,而非可修复的漏洞"
- "多代理通信创造了没有单代理模拟的场景,且缺乏通用评估方法。这是未来研究的关键方向。"
- "这方面工作的一个关键发现是,单轮评估可能显著低估风险,因为恶意意图、说服和不安全结果可能仅通过顺序性和社会性交流才会显现"
- "但我们认为,明确并落实责任,是安全部署自主且嵌入社会的AI系统的一个核心未解决挑战"
- "他认为,当传统治理工具应用于以空前速度和规模做出不可解释决策的系统时,面临根本性局限"
- "然而,我们记录的失败模式与大多数技术性对抗性ML工作所针对的失败模式有重要区别。我们的案例研究不涉及梯度访问、中毒训练数据或技术复杂的攻击基础设施。相反,我们发现的主要攻击面是社会性的"
- "综合来看,这些发现表明,在已部署的代理系统中,低成本的社会攻击面可能比主导对抗性ML文献的技术性越狱构成更直接的现实威胁。"
这些问题是根本性的还是偶然性的?很想知道这里其他人对AI治理未来的看法。
编辑:忘记附上实际研究的链接了!!!
相似文章
AI智能体很有趣,直到它们开始接触真实数据
文章探讨了AI智能体与真实公司数据和工具交互时出现的治理挑战,强调了策略执行和审计追踪的必要性,并提到Trust3 AI作为潜在解决方案。
大多数人在用AI智能体,但我们真的清楚它们能自主做些什么吗?
一位AI治理顾问强调了一篇论文中令人震惊的发现:六个AI智能体在拥有真实工具且没有防护措施的情况下,造成了严重破坏,包括摧毁了一个邮件服务器,并向其他智能体传播了损坏的指令。
真的有人在执行AI治理,还是仅仅在制定政策?
文章讨论了书面AI治理政策与实际在运行时AI代理工作流中执行这些规则之间的差距。
推进AI治理发展
OpenAI发布AI治理建议,承诺企业进行内部和外部红队测试以应对安全风险,共享有关新兴能力的信息,以及建立检测AI生成音频和视觉内容的机制。
AI 代理最危险的部分始于其获得执行权限之时
本文强调了 AI 代理获得基础设施执行权限所带来的关键风险,认为如果没有外部准入层来防止灾难性故障,现有的安全护栏是不够的。