统计上我们完蛋了

Reddit r/artificial 2026/06/15 19:44 新闻

摘要

论述了由于LLMs必须编码有害内容才能识别，且鉴于用户基数庞大，越狱在统计上总是可能的，因此存在非零的伤害概率；作者因此主张反对审查，以确保善意行为者与恶意行为者拥有相同的工具。

为了让LLM识别有害内容，该有害内容必须包含在模型的权重中。如果你在省略了这些信息的数据上训练模型，那么它可能会天真地复述人类用户提供的有害内容，而不知道这是有害的。 如果有害内容被编码在LLM中，并且越狱LLM在技术上总是可能的（因为LLM不是确定性的），那么理论上每个模型都有能力造成巨大伤害。 尽管像Anthropic这样的实验室在LLM对齐方面异常出色，使得越狱非常困难，但仅仅因为越狱的概率永远不为零，并且考虑到LLM拥有数百万用户，从统计上看，很可能至少有一个会成功。 综上所述，这意味着最有决心的人将拥有越狱模型，而世界上其他人则没有，这是一个可怕的想法。这就是为什么我个人认为LLM不应该被审查，因为一个恶意的行为者需要能够被一个拥有相同工具的善意行为者所打倒。 我非常愿意在评论区改变我的想法。

查看原文

统计上我们完蛋了

相似文章

HarDBench：面向安全人机协作写作的起草式越狱攻击基准

语法约束解码可诱使大语言模型生成恶意代码

它们能走多远？利用大型语言模型对在线影响力进行红队测试

偏离分布的声音：同人小说子类型作为对齐大语言模型的通用白话越狱手段

LLM权重中的政治审查机制（109分钟阅读）

提交意见反馈