adversarial-robustness

#adversarial-robustness

快速停止！早停法实现认证鲁棒性

arXiv cs.LG ↗ · 昨天缓存

本文介绍了一个面向任意时有效认证鲁棒性的元学习框架，该框架使用序列E过程自适应分配计算资源，与传统的随机平滑方法相比，样本复杂度降低了20倍，同时保持了严格的统计保证。

0 人收藏 0 人点赞

#adversarial-robustness

Yuvion LLM：一种具有对抗意识的大型语言模型，用于内容和AI安全

arXiv cs.CL ↗ · 昨天缓存

Yuvion LLM 是一种专为对抗鲁棒性和内容安全而设计的大型语言模型，在安全基准测试中达到了最先进的性能，并超越了 GPT-5.4 和 Qwen3-MAX 等更大的模型。

0 人收藏 0 人点赞

#adversarial-robustness

你的越狱评判器有多可靠？自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL ↗ · 5天前缓存

本文评估了用于测量大语言模型（LLM）越狱研究中攻击成功率（ASR）的自动化评判器的可靠性，发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题，从而削弱了所报告的ASR数值的可信度。

0 人收藏 0 人点赞

#adversarial-robustness

退相干作为防御与噪声正则化的幅度：面向对抗鲁棒网络入侵检测的随机量子神经网络严格 N 量子比特理论

arXiv cs.CL ↗ · 6天前缓存

本文提出了一个面向对抗鲁棒网络入侵检测的随机量子神经网络(SQNN)严格 N 量子比特理论，证明了退相干收缩定理，并展示了退极化噪声能提供对抗攻击的鲁棒性，同时在 NSL-KDD 数据集上进行了实验。

0 人收藏 0 人点赞

#adversarial-robustness

MorphStrata：面向时间序列移动目标防御中Morphence学生生成的层特定扰动策略

arXiv cs.LG ↗ · 2026-06-17 缓存

MorphStrata提出了一种层特定随机噪声注入策略，用于在移动目标防御框架中生成多样化的学生模型，以增强时间序列预测的对抗鲁棒性，在BIM攻击下实现了高达97.97%的RMSE改进，且训练开销极低。

0 人收藏 0 人点赞

#adversarial-robustness

重加权铰链方法在鲁棒半空间学习中的平方和度数障碍：基于克里斯托费尔函数的刻画

arXiv cs.LG ↗ · 2026-06-17 缓存

本文利用克里斯托费尔函数建立了鲁棒半空间学习中重加权铰链方法的平方和度数障碍的刻画，揭示了间隔-度数权衡和显式离群点障碍。

0 人收藏 0 人点赞

#adversarial-robustness

何时应条件性地信任智能体？刻画并攻击智能体群中的技能条件声誉

arXiv cs.AI ↗ · 2026-06-15 缓存

本文研究了异构LLM智能体群中的技能条件信任，表明在特定场景下使用基于技能的信任分数优于全局分数，但也揭示了声誉清洗攻击的脆弱性。作者引入条件信息价值检验（CIVT）来检测此类攻击并量化权衡。

0 人收藏 0 人点赞

#adversarial-robustness

神经变异性增强人工网络鲁棒性

arXiv cs.LG ↗ · 2026-06-15 缓存

本文研究受大脑神经变异性启发的相关噪声如何增强人工神经网络对抗对抗攻击和自然图像修改的鲁棒性。

0 人收藏 0 人点赞

#adversarial-robustness

压力下的风险：语言模型对抗鲁棒性的计算感知评估

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出了一种针对LLM对抗鲁棒性的计算感知评估框架，提出了基于FLOPs的风险-计算曲线和度量指标，以更好地评估攻击成本，发现对齐训练具有非单调效应，且计算成本因模型和危害类别而异。

0 人收藏 0 人点赞

#adversarial-robustness

智胜变色龙：直播风险评估中战术性分布外偏移的反事实解耦

arXiv cs.LG ↗ · 2026-06-03 缓存

提出潜在预测反事实解耦（LPCD），通过在潜在层面将稳定的恶意意图与不断演变的叙述策略解耦，解决直播风险评估中的战术性分布外偏移，在大规模工业数据集上取得优越性能。

0 人收藏 0 人点赞

#adversarial-robustness

RRISE：通过代理估计器进行鲁棒半径推断

arXiv cs.LG ↗ · 2026-06-03 缓存

RRISE引入了一种学习的代理估计器，将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播，在将每次查询多达10^4次评估替换为一次前向传播的同时，精度保持在0.84个百分点以内。

0 人收藏 0 人点赞

#adversarial-robustness

提升脑机接口的安全性

arXiv cs.LG ↗ · 2026-06-03 缓存

本文提出了一种轻量级卷积神经网络架构，用于提高基于脑电图的脑机接口的对抗鲁棒性，通过对抗攻击评估，并显示出比现有模型更好的分类性能。

0 人收藏 0 人点赞

#adversarial-robustness

TASER：面向几何驱动鲁棒性的任务感知Stein正则化

arXiv cs.LG ↗ · 2026-06-01 缓存

介绍了TASER，一种从Langevin Stein算子导出的训练时正则化框架，它鼓励预测器与数据密度之间的几何兼容性，提高了CIFAR-10上的对抗鲁棒性和稳定性，而不会显著降低干净准确率。

0 人收藏 0 人点赞

#adversarial-robustness

PReMISE：将策略规则作为LLM评估者的度量规范

arXiv cs.AI ↗ · 2026-06-01 缓存

介绍了PReMISE，一个用于发现和审计LLM评估者策略级规则的框架，涵盖四个维度：结构充分性、可靠性、偏好匹配度和对抗鲁棒性。

0 人收藏 0 人点赞

#adversarial-robustness

The Distillation Game: Adaptive Attacks & Efficient Defenses

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文研究了模型输出可能引发模仿的蒸馏攻击，提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法，结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。

0 人收藏 0 人点赞

#adversarial-robustness

深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索，表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果，包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

0 人收藏 0 人点赞

#adversarial-robustness

基于差分隐私原始-对偶视角的可证明后门攻击鲁棒性

arXiv cs.LG ↗ · 2026-05-22 缓存

本文介绍了一个框架，通过隐私配置文件将随机平滑与差分隐私联系起来，从而能够针对同时影响训练和推理的后门攻击提供严格的可证明鲁棒性保证。该框架在DP-SGD和深度分区聚合上实例化，并在MNIST和CIFAR-10上进行了实验。

0 人收藏 0 人点赞

#adversarial-robustness

协作优化中的因果遗忘：对抗性贡献下的精确与近似影响逆转

arXiv cs.LG ↗ · 2026-05-21 缓存

介绍了HF-KCU，一种联邦学习中高效机器遗忘的方法，利用Krylov子空间近似移除客户端的贡献，在保持模型精度的同时实现比重新训练显著的加速，并对对抗扰动提供鲁棒性。

0 人收藏 0 人点赞

#adversarial-robustness

RAG 能知道检索错误吗？在知识冲突下诊断上下文遵从性

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了一种名为“上下文驱动分解”（CDD）的探针，用于诊断检索增强生成（RAG）系统在面对检索上下文与参数化知识冲突时，是否遵从检索上下文。同时，发布了 Epi-Scale 基准测试，以便在多种模型家族中进行系统性研究。

0 人收藏 0 人点赞

adversarial-robustness

快速停止！早停法实现认证鲁棒性

Yuvion LLM：一种具有对抗意识的大型语言模型，用于内容和AI安全

你的越狱评判器有多可靠？自动化ASR评分的校准与对抗鲁棒性

退相干作为防御与噪声正则化的幅度：面向对抗鲁棒网络入侵检测的随机量子神经网络严格 N 量子比特理论

MorphStrata：面向时间序列移动目标防御中Morphence学生生成的层特定扰动策略

重加权铰链方法在鲁棒半空间学习中的平方和度数障碍：基于克里斯托费尔函数的刻画

何时应条件性地信任智能体？刻画并攻击智能体群中的技能条件声誉

神经变异性增强人工网络鲁棒性

压力下的风险：语言模型对抗鲁棒性的计算感知评估

智胜变色龙：直播风险评估中战术性分布外偏移的反事实解耦

RRISE：通过代理估计器进行鲁棒半径推断

提升脑机接口的安全性

TASER：面向几何驱动鲁棒性的任务感知Stein正则化

PReMISE：将策略规则作为LLM评估者的度量规范

The Distillation Game: Adaptive Attacks & Efficient Defenses

深度学习的哈密顿-雅可比理论

基于差分隐私原始-对偶视角的可证明后门攻击鲁棒性

协作优化中的因果遗忘：对抗性贡献下的精确与近似影响逆转

更多 AI 垃圾可以随便玩玩~

RAG 能知道检索错误吗？在知识冲突下诊断上下文遵从性

提交意见反馈