为什么我们排名第一的 LightGBM 特征反而让预测效果变差 [D]
摘要
Flyback 的一篇博客文章展示了,一个在重要性排名第一的 LightGBM 特征实际上因为目标编码泄露导致预测效果变差,这凸显了仅依赖特征重要性指标的危害。
我们最近在使用定价引擎 (Flyback) 时遇到了一个经典的梯度提升陷阱,我想分享一下消融数据。我们运行 LightGBM 分位数回归来预测二手市场手表价格。我们设计了一个基于变体条件的贝叶斯目标编码器,以隔离参考价格内的定价动态。LightGBM 非常喜欢它。在所有多次不同随机种子运行中,它在 90 分位数上的特征重要性遥遥领先,增益是次高特征的数倍。但当我们对保留集进行严格的 4 个随机种子 × 3 个变体的消融实验时,结果发生了反转。测试 MAPE 退化了 0.28 个百分点,变体间的差值是变体内标准差的 7 倍。编码器找到了有效的分裂点,但这些分裂点完全无法泛化,因为它学习到的信号是由不可约的标签方差驱动的:即那些任何特征都无法捕捉的未观测因素,如状况细微差异、卖家行为和时机。我写了一篇完整的文章,详细介绍了架构、消融方法以及差异背后的机制。欢迎讨论 LightGBM 的分裂机制、目标编码泄露或消融设置。完整文章和消融结果:[https://flyback.ai/engineering/target-encoding-divergence](https://flyback.ai/engineering/target-encoding-divergence)
相似文章
解读指标:强目标文本似乎能在 Gemma 3 12B IT 中引发可测量的潜在状态转移
一位研究人员提供了证据,表明强目标文本能在 Gemma 3 12B IT 的最终输出之前引发可测量的潜在状态转移,这种转移不同于词汇或内容重叠,并讨论了这是对仅依赖输出评估的 AI 安全的影响。
量化破坏对齐:压缩大语言模型中偏见在不同模型与精度下的涌现
本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见,发现3位精度导致6-21%之前无偏见的项目发展出刻板印象,而像困惑度这样的标准指标未能检测到这种退化。
权重剪枝放大偏见:压缩大语言模型在边缘人工智能中多方法研究
本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。
不要压缩你的特征:为什么CenterLoss会损害OOD检测,而多尺度马氏距离胜出
本文介绍了GOEN,一种结合多尺度特征、L2归一化和马氏距离的OOD检测流水线,并发现CenterLoss正则化虽然提高了分类准确率,但实际上会降低OOD性能。
深度隐含偏差:从神经坍缩到Softmax编码
本文研究深度本身如何在没有正则化训练的情况下,在深度无约束特征模型中引致隐式低秩偏差,将最优解从神经坍缩转向Softmax编码,并首次给出了在交叉熵损失下梯度下降中这一偏差的渐近和动态表征。