data-poisoning

#data-poisoning

AI公司大量购入旧书，因其不含AI垃圾

Reddit r/ArtificialInteligence ↗ · 2026-07-21 缓存

AI公司正在购买2022年之前出版的印刷书籍，以避免训练数据中出现AI生成文本，因为旧书保证没有AI垃圾和污染。ISBNdb在保密协议下向AI实验室提供批量图书采购服务。

0 人收藏 0 人点赞

#data-poisoning

arXiv cs.LG ↗ · 2026-07-08 缓存

HARVEY 通过学习一个带有后门的参考模型来准确识别有毒样本，实现近乎完美的后门移除，同时仅带来极小的准确率损失。

0 人收藏 0 人点赞

#data-poisoning

arXiv cs.AI ↗ · 2026-06-01 缓存

本文介绍了一种针对检索增强文本到音乐系统的双层描述投毒攻击，证明攻击者可以通过向知识数据库中注入恶意描述，在不修改用户提示或模型的情况下，将生成的音乐引导至攻击者选择的意图。

0 人收藏 0 人点赞

#data-poisoning

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本文提出开放式良性重写（OBBR）作为针对大语言模型后门攻击的主动防御方法，通过将有害内容投影到良性提示来中和风险，相较于最先进的防御方法，安全性提升51%。

0 人收藏 0 人点赞

#data-poisoning

Reddit r/ArtificialInteligence ↗ · 2026-05-17 缓存

AI tarpits是内容创作者用来给大型语言模型投毒的工具，通过向爬虫提供无用或错误的数据，降低AI输出质量。

0 人收藏 0 人点赞

#data-poisoning

arXiv cs.LG ↗ · 2026-05-14 缓存

本文对用于数据保护的神经正切泛化攻击（NTGA）进行了全面分析，包括相关攻击的分类，并讨论了未来的研究方向。

0 人收藏 0 人点赞

#data-poisoning

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 Paraesthesia，一种针对大型语言模型（LLM）的动态后门攻击方法。该方法在微调过程中将情感风格作为隐蔽的触发器，在保持模型原有实用性的同时实现了极高的攻击成功率。

0 人收藏 0 人点赞