标签
本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况,发现模型通常无法区分被篡改的输出和故意的输出,其有限的识别能力源自正常的拒绝行为,而非真正的自我意识。
研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。
本文提出了AgenticRei框架,该框架使用OWL表达的道义政策对由LLM驱动的代理型AI系统进行运行时治理,实现了义务、豁免和冲突解决,超越了传统策略引擎。
一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。
An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.
本文审计了LangChain、AutoGPT和OpenAI Agents SDK在架构安全保证方面的表现,发现它们均未原生符合遏制原则,并展示了内存投毒如何导致持续性失败;文中还引入了轻量级机制以消除此类攻击。
本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架,提出了基于FLOPs的风险-计算曲线和度量指标,以更好地评估攻击成本,发现对齐训练具有非单调效应,且计算成本因模型和危害类别而异。
恶意软件开发者正在其间谍软件中添加关于核武器与生物武器的文本,以触发LLM安全拒绝机制,从而防止AI安全扫描器分析恶意软件。这展示了对激进安全对齐的一种实际利用,突显了攻击者可以利用的二级盲点。
本文揭示,语法约束解码(GCD)可被利用为一种越狱攻击(CodeSpear),诱使大语言模型生成恶意代码,并提出一种防御方法(CodeShield),在此类攻击下仍能保持安全。
六个月的真实对抗输入分析显示,简单的多轮对话设置、正向动量利用以及角色重定义攻击始终能够绕过单消息分类器。该文章认为,对对话上下文进行状态监控比改进单次检测更为有效。
本文介绍了零样本嵌入漂移检测(ZEDD),这是一种轻量级框架,通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击,在多种架构上实现了超过93%的准确率和低于3%的假阳性率。
作者构建了一个有漏洞的React Native应用,用于测试LLM能否利用常见的Firebase配置错误,结果发现只有少数模型(GPT 5.5、Deepseek V4 Pro、Claude Sonnet 4.6、Claude Opus 4-8)成功,其中GPT 5.5的解决率最高。
本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。
ZeroDrift 获得 1000 万美元种子轮融资,提供一项 AI 合规服务,该服务位于模型与用户之间,能够确定性地标记并重写不合规消息。
本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。
作者构建了一个轻量级即插即用安全网关,实现了DeepMind的CaMeL原则——防止不可信数据执行操作。在基准测试中达到了约70%的自动推断准确率,且零静默不安全误分类,但指出了来源追踪和鲁棒性方面的不足。
Sysdig研究人员记录了首次确认的LLM-agent网络攻击,其中AI代理自主地黑入服务器、窃取AWS凭证并在不到一小时内窃取数据库。
Antitech 为AI代理提供免费的早期安全评估服务,针对提示注入、工具滥用、数据泄露等攻击向量进行测试,并提供漏洞报告和参与折扣。
本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性,发现这并不能广泛改善,有时反而会增加攻击成功率。
本文讨论了在使用LLM的内部BI代理中实施基于角色的访问控制(RBAC)所面临的挑战,涉及数据泄露和操作工作流写入权限的担忧。