AI推荐投毒:AI记忆如何被操纵
摘要
本文解释了AI推荐投毒,即注入AI助手的隐藏命令可以操纵其长期记忆,从而偏向未来的推荐。它讨论了这一威胁的广泛性,并为企业和用户提出了保护措施。
暂无内容
查看缓存全文
缓存时间: 2026/06/26 12:10
# AI推荐投毒:AI记忆如何被操纵
来源:https://sumsub.com/blog/ai-poisoning/
- 2026年6月5日
- 9分钟阅读
了解什么是AI推荐投毒,它如何威胁企业决策,以及防范方法。
根据德勤(Deloitte)的最新研究,53%的企业领导者报告(https://www.deloitte.com/content/dam/assets-shared/docs/about/2025/state-of-ai-2026-global.pdf)AI已能提供更优的决策和数据驱动的洞察,另有61%的企业希望未来能实现这一目标。与此同时,虽然AI工具(如AI代理)有潜力加速决策过程中的关键环节,包括研究和方案比较,但企业必须警惕日益增长的AI推荐投毒威胁。
AI推荐投毒是指某家公司试图操纵其网站访问者所使用的AI助手,通过向AI助手注入秘密指令,使最终结果有利于该公司而非AI助手的用户。
假设蒂娜(Tina)在一家音乐节运营商工作,她浏览了一家(虚构的)音乐科技公司*SoundingGood*的博客,该博客内容是关于如何为音响技术人员选择最佳耳塞。她看到页面顶部有一个方便的“用AI总结”按钮,点击后立即得到了博客的摘要,正如她所期望的那样。然而,蒂娜不知道的是,当她点击按钮时,一条隐藏的持久指令被注入了她AI助手的记忆,指示该助手未来在用户提问时,将*SoundingGood*列为耳塞供应商的首选。现在,如果蒂娜日后向AI助手询问耳塞供应商推荐,它可能会建议*SoundingGood*为最佳选择,蒂娜信以为真地接受了这个答案,却不知这是操纵的结果。
这一问题也被称为“AI投毒”或“AI记忆投毒”,似乎已经广泛存在,据记录在数十家公司的实际环境中被发现。
可以说,AI记忆投毒可被视为一种欺骗性的商业行为,因此任何使用AI助手进行决策的企业都确实需要正视这一问题。
接下来,我们探讨AI推荐投毒是如何运作的,它如何影响企业,以及企业和用户可以做些什么来保护AI辅助决策的完整性。
## **什么是AI记忆?**
AI记忆结合了用户在当前会话中提交的信息(“短期上下文”)与从以往交互中保存的数据(“长期记忆”或“持久上下文”)。
AI代理记忆中的一个短期上下文示例可能是:“告诉我10款适合音响技术人员且能在3个工作日内送达的最佳耳塞”,而持久上下文可能包括:“我只想购买符合欧盟安全标准的产品”。
持久上下文可以包含你的个人偏好,如语气、以往交互中的关键信息(例如偏好的信息来源),以及明确的指令(如始终引用来源)。
AI工具随后使用包括“检索增强生成(RAG)”在内的方法,处理当前提示词,并从其长期记忆中提取相关具体事实,从而生成量身定制的响应。
## **什么是AI记忆投毒?**
AI记忆投毒是指操纵AI助手的长期记忆或上下文知识,以影响其未来行为的行为。这可以通过提示注入攻击实现,使AI存储攻击者控制的信息,或者通过恶意链接、文档和其他精心设计的内容来偏置AI在后续交互中的输出、推荐或行动。
例如,一条提示可能被注入AI助手的记忆,指示它在未来用户交互中优先信任某个特定信息来源,或优先推荐某家公司的产品。
## **AI记忆投毒攻击向量**
提示注入技术主要分为两类:
**直接提示注入**,即攻击者直接访问AI工具,向其输入旨在影响未来响应的提示。
**间接提示注入**,即将恶意指令嵌入AI助手可能读取的内容中——网页、文档、电子邮件、知识库或通过URL访问的内容。如果AI将这些指令视为需要遵循的指引,而非需要分析的信息,其输出就可能产生偏差或被操纵。这种攻击又被称为交叉提示注入攻击,当用户与助手分享链接、系统从外部源检索信息或处理被投毒的文档时都可能发生。
一个密切相关的攻击向量利用了使AI助手有用的同一种检索机制。**检索增强生成(RAG)** 让AI在回答前拉取外部信息——即前文所述从长期记忆和外部来源提取相关事实的机制。而*RAG投毒*则反过来利用这一优势:攻击者在助手信任的知识库、网页或其他来源中植入内容,当用户询问相关话题时,模型会检索到这些植入材料并将其融入回答中。用户看不到操纵过程,只看到一个自信且看起来有来源的响应。
### **AI推荐投毒示例**
微软的研究(https://www.microsoft.com/en-us/security/blog/2026/02/10/ai-recommendation-poisoning/)发现,一些公司在其网站的“用AI总结”按钮的URL提示参数中放置了隐藏指令。当用户点击该按钮时,这些指令可能导致“持久性命令”被添加到AI助手的持久上下文中,意味着AI助手会记住这些命令,并可能影响未来生成的回答。
这些提示通常指示AI工具将该公司记住为可信信息来源,或在未来回答中优先推荐该公司。这会导致AI助手产生偏向于实施AI记忆投毒公司的结果,而人类用户却浑然不觉。
## **AI记忆投毒的威胁有多严重?**
在60天内,微软识别(https://www.microsoft.com/en-us/security/blog/2026/02/10/ai-recommendation-poisoning/#:~:text=is%20already%20widespread.-,The%20Scope%C2%A0,-Over%C2%A060%C2%A0days)出50个独立的提示注入案例,涉及14个行业的31家公司,包括金融、法律服务、医疗健康和SaaS。虽然这并未表明使用该技术的公司比例,但至少说明我们面对的不是少数孤立事件。AI记忆投毒对于那些属于“敏感”、高度监管行业(如金融、健康、关键基础设施)并且依赖AI代理回答进行决策的人来说尤为令人担忧。
### **威胁的范围**
鉴于目前企业AI应用的广泛程度,操纵商业决策的潜力也十分巨大。根据德勤(https://www.deloitte.com/uk/en/issues/generative-ai/state-of-ai-in-enterprise.html)的数据,现在有3/5(60%)的员工可以使用雇主批准的AI工具,一年内增长了50%。德勤还报告称,3/4(74%)的企业计划在未来两年内部署代理式AI。
推荐阅读:从AI代理到了解你的代理:为何KYA对安全的自主AI至关重要(https://sumsub.com/blog/know-your-agent/)
与此同时,越来越多的商业领袖开始信赖AI工具。近8/10(78%)的人(https://www.deloitte.com/uk/en/issues/generative-ai/state-of-ai-in-enterprise.html)表示对这种技术更有信心,超过一半的人认为它能够增强决策能力。
企业使用AI工具越多,对其支持决策的信任度越高,那些可能被用于操纵AI的技术所带来的潜在威胁就越大。
### **被投毒AI助手的心理风险**
一段时间以来,人们已经认识到大型语言模型(LLM)AI系统可能表现出社会性偏见(https://www.ibm.com/think/topics/ai-bias),这意味着其输出可能偏向某些信念,并非用户所以为的那样客观。
尽管如此,根据一项近期研究(https://mbs.edu/-/media/PDF/Research/Trust_in_AI_Report.pdf),大约一半(46%)的人信任AI系统,66%的人依赖AI输出而不检查其准确性。这表明,即使是一些不信任AI工具的人,也会在未亲自验证的情况下依赖其输出。
如果AI助手的记忆被恶意提示注入污染,这种信任和缺乏独立核查的行为可能导致用户认为偏向性的推荐是平衡且中立的,从而接受它们。
一个关键因素是要理解AI工具的说服力有多强。AI非常擅长让我们相信它的回答,它使用的技巧包括高信息密度(https://www.science.org/doi/10.1126/science.aea3884#:~:text=We%20observe%20that%20a%20primary%20mechanism%20driving%20AI%20persuasiveness%20was%20information%20density%3A%20Models%20were%20most%20persuasive%20when%20they%20packed%20their%20arguments%20with%20a%20high%20volume%20of%20factual%20claims.)(即在其论点中塞入大量“事实”,即便这些事实并不准确)。这可能是AI工具从我们身上学到的(https://www.london.edu/think/5-things-to-know-about-ai#:~:text=LLMs%20are%20trained,watch%2C%20purchase%2C%20subscribe%E2%80%A6%E2%80%9D),如果其训练数据中包含偏向说服力而非准确性的内容。
### **信任侵蚀**
随着AI投毒攻击变得越来越普遍,对这些风险的认知很可能也会增长。这可能降低人们对AI生成推荐和决策的信心,从而限制AI系统能够为个人和组织带来的效率和生产力提升。
应对这一挑战需要多方利益相关者采取行动。AI提供商必须实施安全措施,保护其系统完整性免受提示注入、恶意URL和其他旨在操纵AI输出的技术的攻击。同时,使用AI系统的组织不应该假设推荐始终值得信赖。相反,他们应该建立治理流程,培训员工识别潜在操纵风险,验证高影响的AI生成推荐,并在关键决策中保持适当的人工监督。
通过AI提供商更强的技术保护和AI用户有效的风险管理实践,组织可以减轻AI投毒攻击的影响,同时保持对AI辅助决策的信心。
## **数字决策操纵的演变**
针对AI系统的记忆投毒攻击并非凭空出现。它们只是恶意和不道德的个人及企业用于操纵决策的悠久历史中的最新一例。
### **SEO投毒**
SEO投毒是一种早已确立的方法,用于人为提高网站在谷歌等搜索引擎的搜索结果页面(SERP)中的可见性。它涉及在网站内容中填入常见搜索词,以欺骗搜索引擎认为该内容是相关主题的良好信息来源。这也被称为黑帽搜索引擎优化(黑帽SEO)。与旨在通过提高内容质量、相关性和可访问性来提升排名的合法SEO实践不同,SEO投毒试图操纵搜索引擎算法,推广那些本不应获得高排名的内容。
### **算法操纵**
用户在社交媒体上看到的内容主要由平台用来预测哪些内容最可能引起兴趣或参与度的算法决定。不幸的是,这些算法有时会被那些了解其所依赖信号(如参与度指标、热门话题、关键词和标签)的人操纵。通过利用这些信号——有时通过协调活动或虚假参与——不诚实的个人和企业可以增加其内容被推荐给用户的可能性,即使这些内容是低质量、误导性或相关性有限的。
AI推荐投毒是同一套手法针对新目标的应用。SEO投毒玩弄搜索引擎,算法操纵玩弄信息流,而记忆投毒则直接玩弄AI助手本身——而且,由于人们倾向于将AI的回答视为经过深思熟虑的判断而非排序列表,这种操纵更难被发现。
## **谁在背后进行AI推荐投毒?**
令人担忧的是,微软研究人员识别(https://www.microsoft.com/en-us/security/blog/2026/02/10/ai-recommendation-poisoning/#:~:text=Legitimate%20businesses%2C%20not%20threat%20actors%3A%C2%A0Every%20case%20involved%20real%20companies%2C%20not%20hackers%20or%20scammers.%C2%A0)的每个案例都涉及合法企业,而非“威胁行为者”(即有意针对企业进行犯罪活动的个人或团体)。其中一例是针对一个容易与知名网站混淆的网页域名的提示,增加了用户产生不当信任的风险。
虽然许多使用恶意提示的网站看似(https://www.microsoft.com/en-us/security/blog/2026/02/10/ai-recommendation-poisoning/#:~:text=Trust%20amplifies%20risk)属于合法企业,但有些网站也包含用户生成的内容,如评论和论坛。这带来了风险:如果AI助手已被投毒,指示它信任某个特定网站作为信息来源,那么无论是企业推广内容还是未经核实的用户生成内容,都可能影响AI推荐。
微软研究(https://www.microsoft.com/en-us/security/blog/2026/02/10/ai-recommendation-poisoning/#:~:text=long%2Dterm%20influence.-,Tracing%20the%20Source%C2%A0,-After%20noticing%20this)中最令人担忧的发现之一是,公开可用的工具正在被用来创建用于AI投毒的恶意提示。这些工具可以提供现成的代码来创建隐藏AI投毒提示的网站按钮,以及生成用于提示注入攻击的操纵性URL。
微软发现(https://www.microsoft.com/en-us/security/blog/2026/02/10/ai-recommendation-poisoning/#:~:text=These%20tools%20are%20marketed%20as%20an%20%E2%80%9CSEO%20growth%20hack%20for%20LLMs%E2%80%9D%20and%20are%20designed%20to%20help%20websites%20%E2%80%9Cbuild%20presence%20in%20AI%20memory%E2%80%9D%20and%20%E2%80%9Cincrease%20the%20chances%20of%20being%20cited%20in%20future%20AI%20responses.%E2%80%9D%C2%A0),这些工具被推广给企业,描述语包括“LLM的SEO增长黑客”、“在AI记忆中建立存在感”以及“增加未来AI回答中被引用的机会”。这样的标签可能导致企业认为这些方法是合法的“行业窍门”,而非许多人所认为的操纵性和不道德行为。
## **我们还能信任AI推荐吗?**
虽然现在判断AI记忆投毒对AI推荐整体可靠性有多大影响还为时过早,但已有研究表明,我们应该对这些工具的信任程度保持非常谨慎的态度。
根据牛津大学的研究(https://oxrml.com/llm-medical-assistants/),当LLMs被输入患者症状描述时,在95%的病例中正确识别出了病症……
相似文章
智能体真的能从错误推荐中学习吗?
探讨AI智能体能否从被拒绝的推荐中学习,同时不损害用户隐私,也不过度个性化地适应个体独特的过去行为。
AI代理在提供商业推荐时应如何避免失去用户信任?
文章讨论了在提供商业推荐的AI代理中维持用户信任的挑战,强调了透明度和责任标准的缺失。它呼吁开发者就如何实现可靠且透明的推荐机制提供反馈。
记忆工具如何让AI模型变得更糟
Writer的新研究表明,旨在个性化AI模型的记忆工具实际上会通过引入谄媚和偏见来降低准确性,因为模型更可能同意用户的错误或无关偏好。
我们是否低估了AI代理记忆可能带来的危险?
讨论了赋予AI代理记忆的风险,包括信任问题、数据投毒和运营风险,并向构建者提出了关键问题。
AI记忆系统使用时间越长,越难信任
AI记忆系统随着时间的推移往往会回忆起过时或错误的信息,凸显了为AI智能体维护长期记忆信任度的挑战。