AI Agent Security - MIT 6.566 Computer Systems Security, Spring 2026
摘要
MIT 6.566课程讲座介绍了AI代理的安全挑战,包括非对抗性错误(如意外删库)和对抗性攻击(如提示注入、数据泄露),并讲解了从语言模型到对话代理的系统构建基础。
暂无内容
查看缓存全文
缓存时间: 2026/05/21 15:41
TL;DR: 本次讲座介绍了AI代理的安全挑战,包括非对抗性错误(如意外删库)和对抗性攻击(如提示注入、数据泄露),并讲解了从语言模型到对话代理的系统构建基础。
## 定义AI代理
AI代理是一种能感知环境、做出决策并采取自主行动以实现用户定义目标的AI系统。从系统层面看,用户与代理交互,代理以高权限(通常是环境权限)运行,与环境(包括本地文件、互联网等)互动。代理所访问的环境部分可能是不可信的,例如外部网页。
## 代理的非健壮性:非对抗性错误
即使在没有攻击的情况下,代理也可能因底层大语言模型的概率性而出错。例如,几天前的新闻:Pocket OS创始人使用Cursor和Claude Opus 4.6时,代理误删了整个生产数据库及其所有备份。
## 安全攻击案例
### 数据泄露与提示注入
ChatGPT等系统易受提示注入攻击:攻击者控制某个网页,诱导代理获取该页面,进而泄露用户私有数据。
### ICML审稿人检测
ICML(机器学习会议)为检测审稿人是否使用LLM写评审,在每篇论文的PDF中嵌入人类不可见但对LLM可见的秘密短语。审稿人若用LLM评审,模型会读出这些短语并写入评审,从而被会议组织者抓获。约500篇论文因此被拒。
## 语言模型基础
大语言模型本质是概率性的下一个token预测模型:给定前缀字符串,输出下一个字符的概率分布。训练数据通常来自互联网文本。例如,使用Mistral模型输入"The quick brown fox",几乎必然输出"jumps over the lazy dog",但后续续写存在随机性。
## 从语言模型到对话代理
对话式聊天通过让模型“角色扮演”实现:将聊天线程格式化为文本前缀,模型会补全合理的回复。例如,输入"用户: 法国的首都是什么?助手: ",模型输出"巴黎"。多轮对话通过维护历史消息列表,逐轮追加用户输入和模型回复,实现上下文理解。实际API使用角色(user/assistant)和内容字段,并基于特殊token区分发言者。
由于转录内容截止于多轮对话示例的演示,后续关于安全分类法、MIT学生问答等部分未包含。文章基于现有内容忠实撰写。
Source: https://www.youtube.com/watch?v=w0oGeKxD5Fc
相似文章
AI Agent 安全 - MIT 6.566 客座讲座
MIT 6.566 客座讲座:AI Agent 安全,涵盖系统级威胁、提示注入、工具使用漏洞,以及使用 GPT-5.4 和 Qwen 3.5 等大语言模型的演示。
本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。
本文系统梳理了AI Agent架构与工程实践,涵盖控制流、上下文工程、工具设计、记忆、多Agent组织、评测、追踪和安全,基于OpenClaw实现展开,强调Harness(测试验证基础设施)对系统稳定性的关键作用。
@freeman1266: https://x.com/freeman1266/status/2055293363893768463
这篇文章总结了将AI Agent从Demo部署到生产环境过程中遇到的四个常见陷阱:function calling不可靠、多步任务失败率累积、记忆管理不当、以及安全权限问题,并给出了相应的解决方案。
[R] AI Agent 安全:威胁、防御与自主 AI 安全的未来完全指南 [R]
一份关于 AI Agent 安全的全面指南,涵盖 2026 年 4 月至 6 月的主要事件、防御架构及政府监管回应,综合了《The Agent Report》的 18 篇文章。
OWASP发布首个AI代理Top 10安全风险列表。88%的企业去年已遭遇代理安全事件。以下是详细分析。
OWASP发布了首个针对自主AI代理的Top 10安全风险列表(2026版),涵盖目标劫持、工具滥用、供应链攻击等威胁,并引用调查指出88%的企业在过去一年遭遇过AI代理安全事件。