噪声标签下神经网络鲁棒训练的损失函数对称化
摘要
本文研究了标签噪声下鲁棒训练的损失函数对称化,提出了SGCE和alpha-MAE两种损失函数,它们在多类无铰链损失和平均绝对误差之间插值,具有理论保证和有竞争力的实证表现。
arXiv:2605.20347v1 公告类型:新
摘要:标注训练集通常成本高昂且容易出错,因此针对标签噪声设计鲁棒的损失函数成为一个重要问题。对称性条件为应对此类噪声提供了理论上的鲁棒性保证。在这项工作中,我们研究了一种对称化方法,该方法源于任何多类损失函数唯一分解为对称分量和类不敏感项。具体而言,对称化交叉熵损失会导致无铰链损失的线性多类扩展。与二分类情况不同,多类版本必须具有特定系数才能满足对称性条件。在适当假设下,我们证明这种多类无铰链损失是唯一的凸多类对称损失函数。我们还证明了它有一个基本的局部作用:任何对称损失在具有相等分量得分向量周围的线性近似等价于多类无铰链损失。然后,我们引入了SGCE和alpha-MAE两种损失函数,它们在多类无铰链损失和平均绝对误差之间插值,同时允许控制损失的β-平滑度。在标准噪声标签基准上的实验表明,与现有鲁棒损失函数相比,这些损失函数具有有竞争力的性能。
查看缓存全文
缓存时间: 2026/05/21 06:23
# 损失函数对称化:面向含噪标签的神经网络鲁棒训练 来源:https://arxiv.org/abs/2605.20347 查看 PDF:https://arxiv.org/pdf/2605.20347 > 摘要:标注训练集往往成本高昂且易出错,因此针对标签噪声设计鲁棒的损失函数成为一个重要问题。对称性条件为此类噪声提供了理论上的鲁棒性保障。本文研究了一种由任意多类损失函数唯一分解为对称分量与类别不敏感项所衍生的对称化方法。特别地,对交叉熵损失进行对称化处理,可得到无铰损失(unhinged loss)的线性多类扩展形式。与二分类情况不同,多类版本需具备特定系数才能满足对称性条件。在适当假设下,我们证明该多类无铰损失是唯一凸的多类对称损失。我们还发现它具有基本的局部作用:在分量相等的得分向量附近,任意对称损失的线性近似均等价于多类无铰损失。随后,我们提出 SGCE 和 alpha-MAE 两种损失函数,它们在多类无铰损失与平均绝对误差(Mean Absolute Error)之间进行插值,同时允许控制损失的 β-光滑性。在标准含噪标签基准上的实验表明,与现有鲁棒损失函数相比,其性能具有竞争力。 ## 提交历史 来自:Alexandre Lemire Paquin \[查看邮箱(https://arxiv.org/show-email/95b3122a/2605.20347)\] **\[v1\]** 2026年5月19日星期二 18:03:40 UTC(90 KB)
相似文章
理解与改进指令微调中的噪声嵌入技术
本文分析了指令微调中的噪声嵌入技术,解释了为何均匀噪声优于高斯噪声,并引入了SymNoise,一种对称噪声方法,在AlpacaEval上将LLaMA-2-7B的性能显著提升至超过NEFTune。
GAC: 噪声感知的自适应混合用于混合SFT-RL后训练
本文提出了GAC,一种用于大型语言模型混合SFT-RL后训练的噪声感知自适应混合控制器。它推导出一个闭式混合权重,平衡梯度噪声与SFT-RL分歧,在多个基准测试中取得一致的改进,且额外开销极小。
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。
模糊 ARTMAP 中的流式对抗鲁棒性:机制对齐评估、渐进式训练及可解释诊断
本文通过引入与机制对齐的白盒攻击代理 WB-Softmax,研究了流式神经架构模糊 ARTMAP 中的对抗鲁棒性。本文评估了渐进式训练和选择性更新策略,以在不进行数据重放的情况下提高鲁棒性,同时为结构性失效提供可解释的诊断。
超越表面统计:通过内部表示实现LLM鲁棒共形预测
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。