regularization

标签

Cards List
#regularization

保持旋转的有监督微调

arXiv cs.LG · 14小时前 缓存

本文介绍了保持旋转的有监督微调(RPSFT),这是一种通过在微调过程中保持预训练奇异子空间中的投影旋转来提高域外泛化能力的方法。

0 人收藏 0 人点赞
#regularization

FragileFlow:通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性

arXiv cs.CL · 昨天 缓存

本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。

0 人收藏 0 人点赞
#regularization

超越惩罚机制:基于扩散模型的离线强化学习分布外检测与选择性正则化

arXiv cs.LG · 昨天 缓存

本文介绍了 DOSER,这是一种利用扩散模型进行分布外(OOD)检测和选择性正则化的框架,旨在离线强化学习中通过区分有益和有害的 OOD 动作来提升在静态数据集上的表现。

0 人收藏 0 人点赞
#regularization

Sub-JEPA:用于稳定端到端世界模型的子空间高斯正则化

Hugging Face Daily Papers · 3天前 缓存

作者提出了 Sub-JEPA,这是一种利用子空间高斯正则化来提高 LeWM 等端到端世界模型稳定性的方法,在连续控制基准测试中表现出一致的性能提升。

0 人收藏 0 人点赞
#regularization

理解并强制任务算术中的权重解耦

Hugging Face Daily Papers · 2026-04-18 缓存

本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。

0 人收藏 0 人点赞
#regularization

半监督文本分类的对抗训练方法

OpenAI Blog · 2016-05-25 缓存

本文提出了针对文本分类的对抗训练和虚拟对抗训练方法,通过在RNN中对词嵌入而非原始输入施加扰动来实现。该方法在半监督和监督文本分类基准上取得了最先进的结果,同时降低了过拟合。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈