如今有什么防止艺术品被LLM训练的建议？

Lobsters Hottest 2026/06/21 19:57 新闻

摘要

关于防止艺术品被LLM爬取的建议，包括不发布到网上、使用登录墙或部署像iocaine这样的爬虫防御，但同时指出确保这些措施有效性的难度。

<p>我妻子不想把她的艺术品放到网上，因为她不希望这些作品被用来训练LLM。我想知道是否已经有一些库可以让我为她构建一个自定义网站，对艺术品进行处理以对抗LLM训练。我没有很多前端经验，但可以用静态网站生成器拼凑一个简单的网站。（我之前为我的乐队网站使用过eleventy。）</p>

查看原文

查看缓存全文

缓存时间: 2026/06/22 01:29

# 如今对LLM进行艺术作品数据污染有何建议？来源：https://lobste.rs/s/lbjdlo/what_s_advice_for_llm_poisoning_artwork 关于数据污染，甚至仅仅是隐藏那些LLM*能够访问*的艺术作品，其问题在于：我们不知道，也无法知道它究竟效果如何，因为所有操作都进入了黑箱。如果她不想让作品被LLM纳入训练，有几种选择，各有利弊： 1. **不要将作品上传到网络。** 这很简单，但只能维持到别人也把作品传到网上，或者"AI"公司通过其他方式（例如，如果是书籍：扫描）获取到它为止。 2. **将作品上传到网络，但置于注册与登录墙之后。** 这样她仍然可以展示作品，感兴趣的人也能访问，而LLM通常无法抓取。当然，前提是别人不要把作品放到没有注册/登录墙的地方。 3. **将作品上传到网络，并部署强大的爬虫防御。** 在她的站点前部署类似——抱歉，我要自卖自夸一下——iocaine (https://iocaine.madhouse-project.org/) 这样的防御系统，可以阻止大部分爬虫。虽然不能防住所有，但足以极大降低被训练的概率。而且这种方式对真实访问者的阻碍也很小。 --- 另一点重要的是，为了不被纳入训练数据，最好也避免让作品出现在搜索引擎中。商业搜索引擎都会利用其索引的内容进行训练，所以如果她的作品能在Google搜索（或其残余部分）中找到，那么这些内容很可能也被喂给了Gemini。因此，如果她想建立一个既展示作品又避免被LLM训练的在线作品集……那会很困难。如果她只是想把作品放到网上，那么设置登录墙或强大的爬虫防御能大大降低被训练的风险。遗憾的是，这个概率永远不会归零，也没有一个神奇的工具能彻底隐藏或"毒化"一件艺术品——至少没有我们能*确信*它有效的方法。

如今有什么防止艺术品被LLM训练的建议？

相似文章

本地LLM用户在将模型连接到工具之前是否测试提示注入？

内存增强型LLM智能体中的状态污染

友善重写：通过重写实现良性投影以防御LLM数据投毒攻击

在研究中合乎道德地使用LLM的唯一方法是采用闭环LLM知识库。

提示注入即角色混淆

提交意见反馈