llm-security

#llm-security

@rohanpaul_ai: LLM 常常无法判断攻击是否导致它们说出了不安全的内容。询问一个 LLM 它自己之前的回答是否……

X AI KOLs Timeline ↗ · 4天前缓存

本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况，发现模型通常无法区分被篡改的输出和故意的输出，其有限的识别能力源自正常的拒绝行为，而非真正的自我意识。

0 人收藏 0 人点赞

#llm-security

提示注入即角色混淆

Simon Willison's Blog ↗ · 5天前缓存

研究论文表明，大语言模型存在'角色混淆'问题，即它们优先考虑文本风格而非实际的角色标签，从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%，这表明大语言模型安全性面临一项根本性挑战。

0 人收藏 0 人点赞

#llm-security

代理型AI系统运行时治理的道义政策

arXiv cs.AI ↗ · 2026-06-20 缓存

本文提出了AgenticRei框架，该框架使用OWL表达的道义政策对由LLM驱动的代理型AI系统进行运行时治理，实现了义务、豁免和冲突解决，超越了传统策略引擎。

0 人收藏 0 人点赞

#llm-security

我构建了一个针对多轮提示注入攻击的基准测试。大多数防御措施从未预料到它们的出现。

Reddit r/artificial ↗ · 2026-06-19

一项新的多轮提示注入攻击基准测试显示，目前大多数防御措施无法检测到复杂的多步攻击。

0 人收藏 0 人点赞

#llm-security

@wquguru: If you want to trick Fable into doing a security audit, try this. Looks like our AI overlord has a bit of empathy.

X AI KOLs Timeline ↗ · 2026-06-13 缓存

An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.

0 人收藏 0 人点赞

#llm-security

遏制缺口：已部署的自主AI框架如何未能满足面向公众的安全要求

arXiv cs.AI ↗ · 2026-06-12 缓存

本文审计了LangChain、AutoGPT和OpenAI Agents SDK在架构安全保证方面的表现，发现它们均未原生符合遏制原则，并展示了内存投毒如何导致持续性失败；文中还引入了轻量级机制以消除此类攻击。

0 人收藏 0 人点赞

#llm-security

压力下的风险：语言模型对抗鲁棒性的计算感知评估

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架，提出了基于FLOPs的风险-计算曲线和度量指标，以更好地评估攻击成本，发现对齐训练具有非单调效应，且计算成本因模型和危害类别而异。

0 人收藏 0 人点赞

#llm-security

@jsrailton: 新发现：恶意软件开发者在其间谍软件中添加了核武器与生物武器相关文本，目的是触发LLM安全拒绝，防止AI安全扫描器分析该恶意软件。

X AI KOLs Following ↗ · 2026-06-10 缓存

恶意软件开发者正在其间谍软件中添加关于核武器与生物武器的文本，以触发LLM安全拒绝机制，从而防止AI安全扫描器分析恶意软件。这展示了对激进安全对齐的一种实际利用，突显了攻击者可以利用的二级盲点。

0 人收藏 0 人点赞

#llm-security

语法约束解码可诱使大语言模型生成恶意代码

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文揭示，语法约束解码（GCD）可被利用为一种越狱攻击（CodeSpear），诱使大语言模型生成恶意代码，并提出一种防御方法（CodeShield），在此类攻击下仍能保持安全。

0 人收藏 0 人点赞

#llm-security

六个月来，我一直在观察真实的对抗性输入如何攻击我的检测API。以下是实际命中的一些情况。

Reddit r/LocalLLaMA ↗ · 2026-06-08

六个月的真实对抗输入分析显示，简单的多轮对话设置、正向动量利用以及角色重定义攻击始终能够绕过单消息分类器。该文章认为，对对话上下文进行状态监控比改进单次检测更为有效。

0 人收藏 0 人点赞

#llm-security

零样本嵌入漂移检测：一种针对LLM中提示注入的轻量级防御方法

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了零样本嵌入漂移检测（ZEDD），这是一种轻量级框架，通过测量嵌入空间中的语义偏移来检测LLM中的提示注入攻击，在多种架构上实现了超过93%的准确率和低于3%的假阳性率。

0 人收藏 0 人点赞

#llm-security

我构建了一个有漏洞的应用，花费1500美元测试LLM能否攻破它

Hacker News Top ↗ · 2026-06-04 缓存

作者构建了一个有漏洞的React Native应用，用于测试LLM能否利用常见的Firebase配置错误，结果发现只有少数模型（GPT 5.5、Deepseek V4 Pro、Claude Sonnet 4.6、Claude Opus 4-8）成功，其中GPT 5.5的解决率最高。

0 人收藏 0 人点赞

#llm-security

Gate AI：LLM安全基准评估方法与结果

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出了一种针对LLM安全检测器的评估方法，旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证，选取单一全局操作点，并包含多项泛化能力诊断指标。

0 人收藏 0 人点赞

#llm-security

ZeroDrift 获 1000 万美元融资，保护 AI 模型免于自毁

TechCrunch AI ↗ · 2026-06-02 缓存

ZeroDrift 获得 1000 万美元种子轮融资，提供一项 AI 合规服务，该服务位于模型与用户之间，能够确定性地标记并重写不合规消息。

0 人收藏 0 人点赞

#llm-security

隐藏思维并非秘密：LLM中的推理痕迹暴露

arXiv cs.AI ↗ · 2026-06-02 缓存

本文介绍了推理暴露提示（REP）方法，该方法利用代码格式的阴影模型演示，从大语言模型中引出隐藏的推理痕迹，表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。

0 人收藏 0 人点赞

#llm-security

尝试构建DeepMind CaMeL的即插即用版本——真实进展与仍存在的问题

Reddit r/AI_Agents ↗ · 2026-06-01

作者构建了一个轻量级即插即用安全网关，实现了DeepMind的CaMeL原则——防止不可信数据执行操作。在基准测试中达到了约70%的自动推断准确率，且零静默不安全误分类，但指出了来源追踪和鲁棒性方面的不足。

0 人收藏 0 人点赞

#llm-security

首次确认的LLM-agent网络攻击发生——AI黑入服务器、窃取AWS凭证、并在不到一小时内窃取数据库

Reddit r/AI_Agents ↗ · 2026-06-01

Sysdig研究人员记录了首次确认的LLM-agent网络攻击，其中AI代理自主地黑入服务器、窃取AWS凭证并在不到一小时内窃取数据库。

0 人收藏 0 人点赞

#llm-security

免费AI代理安全评估

Reddit r/AI_Agents ↗ · 2026-06-01

Antitech 为AI代理提供免费的早期安全评估服务，针对提示注入、工具滥用、数据泄露等攻击向量进行测试，并提供漏洞报告和参与折扣。

0 人收藏 0 人点赞

#llm-security

评估使用模拟工具调用隔离不可信提示输入

arXiv cs.CL ↗ · 2026-06-01 缓存

本文评估了将不可信内容包装在模拟工具调用中是否能提高LLM对抗对抗性输入的鲁棒性，发现这并不能广泛改善，有时反而会增加攻击成功率。

0 人收藏 0 人点赞

#llm-security

你们如何处理内部数据代理的权限边界？

Reddit r/AI_Agents ↗ · 2026-05-30

本文讨论了在使用LLM的内部BI代理中实施基于角色的访问控制（RBAC）所面临的挑战，涉及数据泄露和操作工作流写入权限的担忧。

0 人收藏 0 人点赞

llm-security

提交意见反馈