adversarial-attacks

#adversarial-attacks

@DailyDoseOfDS_: OpenAI 为此支付了 50 万美元！> 寻找 LLM 漏洞的 Kaggle 竞赛 DeepTeam 免费实现 20+…

X AI KOLs Timeline ↗ · 4天前缓存

DeepTeam 是一款免费的开源工具，实现了 20 多种最先进的攻击技术，可检测包括偏见和个人信息（PII）泄露在内的 50 多种 LLM 漏洞，可在本地运行且无需数据集。

0 人收藏 0 人点赞

#adversarial-attacks

隐藏、重建与越狱：利用多模态大语言模型中的重建-隐藏权衡

arXiv cs.AI ↗ · 6天前缓存

本文分析了针对多模态大语言模型（MLLMs）的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像，以更有效地利用模型漏洞。

0 人收藏 0 人点赞

#adversarial-attacks

客户端的力量：独裁场景下的联邦学习

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了“独裁客户端”——联邦学习中一类新型恶意参与者，能够抹去其他客户端的贡献同时保留自己的贡献——并提供了对其影响模型收敛的理论分析，包括多个对抗性客户端的场景。

0 人收藏 0 人点赞

#adversarial-attacks

基于大模型的稠密检索器鲁棒性研究：泛化性与稳定性系统分析

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

系统研究表明，基于大模型的稠密检索器在拼写错误和投毒攻击上优于 BERT 基线，但仍易受语义扰动影响，其嵌入几何形态可预测鲁棒性。

0 人收藏 0 人点赞

#adversarial-attacks

设计能抵抗提示词注入的AI智能体

OpenAI Blog ↗ · 2026-03-11 缓存

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见，指出现代攻击日益采用社会工程学策略而非简单的字符串注入，并倡导采用系统级防御措施来限制影响范围，而不是单纯依赖输入过滤。

0 人收藏 0 人点赞

#adversarial-attacks

理解提示词注入：AI安全的前沿挑战

OpenAI Blog ↗ · 2025-11-07 缓存

OpenAI发布了关于提示词注入攻击的指导，这是一种社会工程漏洞，恶意指令可以隐藏在网页内容或文档中，诱骗AI模型执行意外操作。该公司概述了其多层防御策略，包括指令层级研究、自动化安全测试和AI驱动的监控系统。

0 人收藏 0 人点赞

#adversarial-attacks

用推理时计算换取对抗鲁棒性

OpenAI Blog ↗ · 2025-01-22 缓存

OpenAI 提出证据表明，像 o1 这样的推理模型在获得更多推理时计算来进行更深入思考时，对对抗攻击的抵抗力会增强。这项研究表明，增加计算量可以降低多种任务类型（包括数学、事实性和对抗性图像）的攻击成功率，尽管仍存在一些显著的例外。

0 人收藏 0 人点赞

#adversarial-attacks

指令层级：训练大语言模型优先处理特权指令

OpenAI Blog ↗ · 2024-04-19 缓存

OpenAI 提出了指令层级方法来防御 LLM 遭受提示注入和越狱攻击，通过训练模型优先采用系统指令而非用户输入。该方法显著提升了模型的鲁棒性，同时不会削弱标准能力。

0 人收藏 0 人点赞

#adversarial-attacks

# 测试对未知对手的鲁棒性来源：[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR（未知攻击鲁棒性），它评估单个模型对意外攻击的鲁棒性，并强调了需要在更多样化的未知攻击范围内测量性能

0 人收藏 0 人点赞

#adversarial-attacks

神经网络策略的对抗性攻击

OpenAI Blog ↗ · 2017-02-08 缓存

OpenAI 研究人员展示了对抗性攻击（先前在计算机视觉中研究过）对强化学习中的神经网络策略也同样有效，即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

0 人收藏 0 人点赞

adversarial-attacks

提交意见反馈