低准确率(约50%)的SSL(BYOL/MAE/VICReg)在高光谱作物胁迫数据上——我遗漏了什么?[R]

Reddit r/MachineLearning 新闻

摘要

一位研究者分享其在白菜氮缺乏检测中,使用SSL方法(BYOL、MAE、VICReg)进行高光谱作物胁迫分类时仅获得约50%准确率的困境,寻求关于更适合光谱数据的SSL技术、特征工程和模型架构的建议。

我正在研究一个用于氮缺乏检测的白菜高光谱数据集。数据集包含3个类别:健康、轻度氮胁迫、重度氮胁迫。我尝试使用自监督学习(SSL)进行表示学习,然后进行微调以进行分类。 **已尝试的方法:** - 尝试了多种SSL方法:BYOL、MAE、VICReg - 使用了数据增强(光谱噪声、掩码、缩放等) - 用分类头进行微调 - 使用准确率和F1分数进行评估 **问题:** 无论我怎么尝试,性能都卡在: - 准确率:约45–50% - F1分数:也很低(约0.5) 这几乎不比随机好多少(因为3个类别 ≈ 33%)。 **我的设置:** - 高光谱数据(数百个波段) - 1D/基于块的模型(ViT风格) - SSL预训练 → 微调流程 - 也尝试了k-NN和线性探针(效果仍然很差) **我怀疑的原因:** - 类别之间可能光谱上不太可分 - SSL方法是为RGB设计的,可能不适应 - 数据增强可能反而有害 - 模型没有捕获光谱特有的模式 **我寻求的建议:** 非常希望能得到以下方面的建议: **更好的SSL方法用于高光谱数据** - VICReg真的是这里的最佳选择吗? - 我应该尝试掩码光谱建模吗? **特征工程** - 我应该加入植被指数(NDVI等)吗? - 训练前进行PCA? **模型架构** - 1D CNN vs ViT vs 混合模型? - 是否有经过验证的高光谱专用架构? **评估** - 验证SSL表示的最佳方法? - 有什么技巧能提高线性探针结果吗? **一般建议** - 有人做过植物胁迫/高光谱分类吗?常见做法
查看原文

相似文章

植物表型组学中小数据量子学习的监督潜在重构

arXiv cs.LG

本文提出了一种面向小数据场景下植物表型组学分类的混合量子-经典工作流,通过监督潜在重构(PCA+LDA)在量子核对齐前提升几何可分性。实验显示可分性有所提升,但揭示了压缩权衡以及实现强量子性能的困难。

基础模型嵌入是否提升了跨国作物产量预测的泛化能力?一项针对撒哈拉以南非洲的留一国验证研究

arXiv cs.LG

本文评估了以 Prithvi-EO 为代表的地理空间基础模型嵌入,在撒哈拉以南非洲地区预测作物产量时,相较于传统 Sentinel-2 特征是否具备跨国泛化优势。研究发现,在严格的留一国交叉验证下,冻结的嵌入特征并未显著优于光谱中位数,表明国家层面的分布偏移是主要瓶颈,而非特征表示的质量。