overfitting

#overfitting

基于对数对齐比的训练时泛化诊断

arXiv cs.LG ↗ · 2026-05-29 缓存

本文介绍了对数对齐比（LAR），这是一种训练时度量，用于衡量参数-激活对齐度，并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明，LAR能够跟踪从记忆到泛化的转变，并在无需留出数据的情况下标记过拟合。

0 人收藏 0 人点赞

#overfitting

R2R2: 通过自预测学习中的冗余减少实现鲁棒表示，用于密集经验重用

arXiv cs.LG ↗ · 2026-05-15 缓存

提出R2R2，一种用于强化学习中自预测学习的正则化方法，以缓解高更新-数据比下的过拟合，在连续控制任务上取得了显著改进。

0 人收藏 0 人点赞

#overfitting

降低学习率比任何其他尝试都更好地修复了我的Qlora微调问题

Reddit r/LocalLLaMA ↗ · 2026-05-14

一位用户发现，将学习率从2e-4降低到1e-4显著改善了Llama 3.1 8B在小型数据集（8k样本）上的QLoRA微调效果，防止了过拟合，并获得了更好的评估结果。

0 人收藏 0 人点赞

#overfitting

数据约束下的混合预训练缩放定律

arXiv cs.LG ↗ · 2026-05-14 缓存

本文研究了在混合预训练中稀缺目标数据与丰富通用数据之间的权衡，发现重复是驱动性能的关键因素，并且混合训练能容忍目标数据重复15-20次。我们引入了一个考虑重复影响的缩放定律，以优化数据约束条件下的混合配置。

0 人收藏 0 人点赞

#overfitting

数据受限训练的规定性缩放定律

Hugging Face Daily Papers ↗ · 2026-05-02 缓存

一种考虑数据重复效应的修正缩放定律，为数据受限场景提供了计算最优的训练策略，表明超出某一界限后，进一步重复会适得其反，计算资源应更明智地用于模型容量。

0 人收藏 0 人点赞

#overfitting

# 量化强化学习中的泛化能力来源: [https://openai.com/index/quantifying-generalization-in-reinforcement-learning/](https://openai.com/index/quantifying-generalization-in-reinforcement-learning/) 我们训练了9个智能体来玩CoinRun，每个智能体都有不同数量的可用训练关卡。前8个智能体分别在包含100到16,000个关卡的数据集上进行训练。最后一个智能体在不受限制的关卡集合上进行训练，因此该智能体永远不会看到相同的关卡两次。

0 人收藏 0 人点赞

overfitting

基于对数对齐比的训练时泛化诊断

R2R2: 通过自预测学习中的冗余减少实现鲁棒表示，用于密集经验重用

降低学习率比任何其他尝试都更好地修复了我的Qlora微调问题

数据约束下的混合预训练缩放定律

数据受限训练的规定性缩放定律

量化强化学习中的泛化能力

提交意见反馈