统计上我们完蛋了

Reddit r/artificial 新闻

摘要

论述了由于LLMs必须编码有害内容才能识别,且鉴于用户基数庞大,越狱在统计上总是可能的,因此存在非零的伤害概率;作者因此主张反对审查,以确保善意行为者与恶意行为者拥有相同的工具。

为了让LLM识别有害内容,该有害内容必须包含在模型的权重中。如果你在省略了这些信息的数据上训练模型,那么它可能会天真地复述人类用户提供的有害内容,而不知道这是有害的。​ 如果有害内容被编码在LLM中,并且越狱LLM在技术上总是可能的(因为LLM不是确定性的),那么理论上每个模型都有能力造成巨大伤害。​ 尽管像Anthropic这样的实验室在LLM对齐方面异常出色,使得越狱非常困难,但仅仅因为越狱的概率永远不为零,并且考虑到LLM拥有数百万用户,从统计上看,很可能至少有一个会成功。​ 综上所述,这意味着最有决心的人将拥有越狱模型,而世界上其他人则没有,这是一个可怕的想法。这就是为什么我个人认为LLM不应该被审查,因为一个恶意的行为者需要能够被一个拥有相同工具的善意行为者所打倒。​ 我非常愿意在评论区改变我的想法。
查看原文

相似文章

语法约束解码可诱使大语言模型生成恶意代码

Hugging Face Daily Papers

本文揭示,语法约束解码(GCD)可被利用为一种越狱攻击(CodeSpear),诱使大语言模型生成恶意代码,并提出一种防御方法(CodeShield),在此类攻击下仍能保持安全。

LLM权重中的政治审查机制(109分钟阅读)

TLDR AI

这项关于Qwen 3.5的机制可解释性研究揭示了负责政治审查的特定电路,展示了如何通过引导内部方向来识别、分析甚至关闭该电路。研究结果表明,模型的事实知识保持完整,审查行为只是叠加在其之上。