统计上我们完蛋了
摘要
论述了由于LLMs必须编码有害内容才能识别,且鉴于用户基数庞大,越狱在统计上总是可能的,因此存在非零的伤害概率;作者因此主张反对审查,以确保善意行为者与恶意行为者拥有相同的工具。
为了让LLM识别有害内容,该有害内容必须包含在模型的权重中。如果你在省略了这些信息的数据上训练模型,那么它可能会天真地复述人类用户提供的有害内容,而不知道这是有害的。​ 如果有害内容被编码在LLM中,并且越狱LLM在技术上总是可能的(因为LLM不是确定性的),那么理论上每个模型都有能力造成巨大伤害。​ 尽管像Anthropic这样的实验室在LLM对齐方面异常出色,使得越狱非常困难,但仅仅因为越狱的概率永远不为零,并且考虑到LLM拥有数百万用户,从统计上看,很可能至少有一个会成功。​ 综上所述,这意味着最有决心的人将拥有越狱模型,而世界上其他人则没有,这是一个可怕的想法。这就是为什么我个人认为LLM不应该被审查,因为一个恶意的行为者需要能够被一个拥有相同工具的善意行为者所打倒。​ 我非常愿意在评论区改变我的想法。
相似文章
HarDBench:面向安全人机协作写作的起草式越狱攻击基准
研究者推出 HarDBench 基准,揭示 LLM 在协作写作中因恶意草稿被越狱的风险,并提出基于偏好优化的防御方法,在不影响协作实用性的前提下显著降低有害输出。
语法约束解码可诱使大语言模型生成恶意代码
本文揭示,语法约束解码(GCD)可被利用为一种越狱攻击(CodeSpear),诱使大语言模型生成恶意代码,并提出一种防御方法(CodeShield),在此类攻击下仍能保持安全。
它们能走多远?利用大型语言模型对在线影响力进行红队测试
本文介绍了一个红队测试框架,用于衡量开源LLM能够表达的政治观点的“奥弗顿窗口”,并评估简单的越狱手段如何扩大该范围,发现30多个模型存在系统性的左倾偏见和漏洞。
偏离分布的声音:同人小说子类型作为对齐大语言模型的通用白话越狱手段
香港中文大学(深圳)的研究人员提出了一种越狱方法,利用Archive of Our Own平台上的同人小说子类型作为攻击载体,将有害内容嵌入创意写作场景中。该方法在八个对齐大语言模型上的平均攻击成功率(ASR)达到0.731,多轮扩展版本(Saga-A4)的ASR进一步提升至0.924,超越了现有方法。
LLM权重中的政治审查机制(109分钟阅读)
这项关于Qwen 3.5的机制可解释性研究揭示了负责政治审查的特定电路,展示了如何通过引导内部方向来识别、分析甚至关闭该电路。研究结果表明,模型的事实知识保持完整,审查行为只是叠加在其之上。