如今有什么防止艺术品被LLM训练的建议?

Lobsters Hottest 新闻

摘要

关于防止艺术品被LLM爬取的建议,包括不发布到网上、使用登录墙或部署像iocaine这样的爬虫防御,但同时指出确保这些措施有效性的难度。

<p>我妻子不想把她的艺术品放到网上,因为她不希望这些作品被用来训练LLM。我想知道是否已经有一些库可以让我为她构建一个自定义网站,对艺术品进行处理以对抗LLM训练。我没有很多前端经验,但可以用静态网站生成器拼凑一个简单的网站。(我之前为我的乐队网站使用过eleventy。)</p>
查看原文
查看缓存全文

缓存时间: 2026/06/22 01:29

# 如今对LLM进行艺术作品数据污染有何建议? 来源:https://lobste.rs/s/lbjdlo/what_s_advice_for_llm_poisoning_artwork 关于数据污染,甚至仅仅是隐藏那些LLM*能够访问*的艺术作品,其问题在于:我们不知道,也无法知道它究竟效果如何,因为所有操作都进入了黑箱。如果她不想让作品被LLM纳入训练,有几种选择,各有利弊: 1. **不要将作品上传到网络。** 这很简单,但只能维持到别人也把作品传到网上,或者"AI"公司通过其他方式(例如,如果是书籍:扫描)获取到它为止。 2. **将作品上传到网络,但置于注册与登录墙之后。** 这样她仍然可以展示作品,感兴趣的人也能访问,而LLM通常无法抓取。当然,前提是别人不要把作品放到没有注册/登录墙的地方。 3. **将作品上传到网络,并部署强大的爬虫防御。** 在她的站点前部署类似——抱歉,我要自卖自夸一下——iocaine (https://iocaine.madhouse-project.org/) 这样的防御系统,可以阻止大部分爬虫。虽然不能防住所有,但足以极大降低被训练的概率。而且这种方式对真实访问者的阻碍也很小。 --- 另一点重要的是,为了不被纳入训练数据,最好也避免让作品出现在搜索引擎中。商业搜索引擎都会利用其索引的内容进行训练,所以如果她的作品能在Google搜索(或其残余部分)中找到,那么这些内容很可能也被喂给了Gemini。 因此,如果她想建立一个既展示作品又避免被LLM训练的在线作品集……那会很困难。如果她只是想把作品放到网上,那么设置登录墙或强大的爬虫防御能大大降低被训练的风险。遗憾的是,这个概率永远不会归零,也没有一个神奇的工具能彻底隐藏或"毒化"一件艺术品——至少没有我们能*确信*它有效的方法。

相似文章

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

提示注入即角色混淆

Simon Willison's Blog

研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。