标签
本文介绍了一个面向任意时有效认证鲁棒性的元学习框架,该框架使用序列E过程自适应分配计算资源,与传统的随机平滑方法相比,样本复杂度降低了20倍,同时保持了严格的统计保证。
Yuvion LLM 是一种专为对抗鲁棒性和内容安全而设计的大型语言模型,在安全基准测试中达到了最先进的性能,并超越了 GPT-5.4 和 Qwen3-MAX 等更大的模型。
本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。
本文提出了一个面向对抗鲁棒网络入侵检测的随机量子神经网络(SQNN)严格 N 量子比特理论,证明了退相干收缩定理,并展示了退极化噪声能提供对抗攻击的鲁棒性,同时在 NSL-KDD 数据集上进行了实验。
MorphStrata提出了一种层特定随机噪声注入策略,用于在移动目标防御框架中生成多样化的学生模型,以增强时间序列预测的对抗鲁棒性,在BIM攻击下实现了高达97.97%的RMSE改进,且训练开销极低。
本文利用克里斯托费尔函数建立了鲁棒半空间学习中重加权铰链方法的平方和度数障碍的刻画,揭示了间隔-度数权衡和显式离群点障碍。
本文研究了异构LLM智能体群中的技能条件信任,表明在特定场景下使用基于技能的信任分数优于全局分数,但也揭示了声誉清洗攻击的脆弱性。作者引入条件信息价值检验(CIVT)来检测此类攻击并量化权衡。
本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架,提出了基于FLOPs的风险-计算曲线和度量指标,以更好地评估攻击成本,发现对齐训练具有非单调效应,且计算成本因模型和危害类别而异。
提出潜在预测反事实解耦(LPCD),通过在潜在层面将稳定的恶意意图与不断演变的叙述策略解耦,解决直播风险评估中的战术性分布外偏移,在大规模工业数据集上取得优越性能。
RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。
本文提出了一种轻量级卷积神经网络架构,用于提高基于脑电图的脑机接口的对抗鲁棒性,通过对抗攻击评估,并显示出比现有模型更好的分类性能。
介绍了TASER,一种从Langevin Stein算子导出的训练时正则化框架,它鼓励预测器与数据密度之间的几何兼容性,提高了CIFAR-10上的对抗鲁棒性和稳定性,而不会显著降低干净准确率。
介绍了PReMISE,一个用于发现和审计LLM评估者策略级规则的框架,涵盖四个维度:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。
本文研究了模型输出可能引发模仿的蒸馏攻击,提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法,结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。
本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。
本文介绍了一个框架,通过隐私配置文件将随机平滑与差分隐私联系起来,从而能够针对同时影响训练和推理的后门攻击提供严格的可证明鲁棒性保证。该框架在DP-SGD和深度分区聚合上实例化,并在MNIST和CIFAR-10上进行了实验。
介绍了HF-KCU,一种联邦学习中高效机器遗忘的方法,利用Krylov子空间近似移除客户端的贡献,在保持模型精度的同时实现比重新训练显著的加速,并对对抗扰动提供鲁棒性。
本文扩展了E8格几何激活注入,将其应用于监督式LLM安全路由,使用STE快照的E8策略头。虽然在干净数据上实现了近乎完美的路由,但该方法在对抗性压力下灾难性地失败,因此需要一种混合符号-几何架构,并配以经过审计的确定性规则。
本文提出了一种名为“上下文驱动分解”(CDD)的探针,用于诊断检索增强生成(RAG)系统在面对检索上下文与参数化知识冲突时,是否遵从检索上下文。同时,发布了 Epi-Scale 基准测试,以便在多种模型家族中进行系统性研究。