标签
本文介绍了一种针对检索增强文本到音乐系统的双层描述投毒攻击,证明攻击者可以通过向知识数据库中注入恶意描述,在不修改用户提示或模型的情况下,将生成的音乐引导至攻击者选择的意图。
本文提出开放式良性重写(OBBR)作为针对大语言模型后门攻击的主动防御方法,通过将有害内容投影到良性提示来中和风险,相较于最先进的防御方法,安全性提升51%。
AI tarpits是内容创作者用来给大型语言模型投毒的工具,通过向爬虫提供无用或错误的数据,降低AI输出质量。
本文对用于数据保护的神经正切泛化攻击(NTGA)进行了全面分析,包括相关攻击的分类,并讨论了未来的研究方向。
本文介绍了 Paraesthesia,一种针对大型语言模型(LLM)的动态后门攻击方法。该方法在微调过程中将情感风格作为隐蔽的触发器,在保持模型原有实用性的同时实现了极高的攻击成功率。