为什么我们排名第一的 LightGBM 特征反而让预测效果变差 [D]

Reddit r/MachineLearning 新闻

摘要

Flyback 的一篇博客文章展示了,一个在重要性排名第一的 LightGBM 特征实际上因为目标编码泄露导致预测效果变差,这凸显了仅依赖特征重要性指标的危害。

我们最近在使用定价引擎 (Flyback) 时遇到了一个经典的梯度提升陷阱,我想分享一下消融数据。我们运行 LightGBM 分位数回归来预测二手市场手表价格。我们设计了一个基于变体条件的贝叶斯目标编码器,以隔离参考价格内的定价动态。LightGBM 非常喜欢它。在所有多次不同随机种子运行中,它在 90 分位数上的特征重要性遥遥领先,增益是次高特征的数倍。但当我们对保留集进行严格的 4 个随机种子 × 3 个变体的消融实验时,结果发生了反转。测试 MAPE 退化了 0.28 个百分点,变体间的差值是变体内标准差的 7 倍。编码器找到了有效的分裂点,但这些分裂点完全无法泛化,因为它学习到的信号是由不可约的标签方差驱动的:即那些任何特征都无法捕捉的未观测因素,如状况细微差异、卖家行为和时机。我写了一篇完整的文章,详细介绍了架构、消融方法以及差异背后的机制。欢迎讨论 LightGBM 的分裂机制、目标编码泄露或消融设置。完整文章和消融结果:[https://flyback.ai/engineering/target-encoding-divergence](https://flyback.ai/engineering/target-encoding-divergence)
查看原文

相似文章

深度隐含偏差:从神经坍缩到Softmax编码

arXiv cs.LG

本文研究深度本身如何在没有正则化训练的情况下,在深度无约束特征模型中引致隐式低秩偏差,将最优解从神经坍缩转向Softmax编码,并首次给出了在交叉熵损失下梯度下降中这一偏差的渐近和动态表征。