标签
PRA-RAG是一种用于检索增强生成的可证明鲁棒的聚合算法,旨在抵御对检索文本的投毒攻击。它利用嵌入空间中的几何结构来识别鲁棒子集,并提供攻击影响的理论界限,将攻击成功率降低至1%,同时保持准确率。
SkillHarm 是一个用于评估技能使用生命周期中基于技能的攻击的基准,揭示了当前AI代理的高度脆弱性(攻击成功率高达86.3%),并引入了通过AutoSkillHarm实现的自动化攻击构建。