低准确率(约50%)的SSL(BYOL/MAE/VICReg)在高光谱作物胁迫数据上——我遗漏了什么?[R]
摘要
一位研究者分享其在白菜氮缺乏检测中,使用SSL方法(BYOL、MAE、VICReg)进行高光谱作物胁迫分类时仅获得约50%准确率的困境,寻求关于更适合光谱数据的SSL技术、特征工程和模型架构的建议。
我正在研究一个用于氮缺乏检测的白菜高光谱数据集。数据集包含3个类别:健康、轻度氮胁迫、重度氮胁迫。我尝试使用自监督学习(SSL)进行表示学习,然后进行微调以进行分类。
**已尝试的方法:**
- 尝试了多种SSL方法:BYOL、MAE、VICReg
- 使用了数据增强(光谱噪声、掩码、缩放等)
- 用分类头进行微调
- 使用准确率和F1分数进行评估
**问题:**
无论我怎么尝试,性能都卡在:
- 准确率:约45–50%
- F1分数:也很低(约0.5)
这几乎不比随机好多少(因为3个类别 ≈ 33%)。
**我的设置:**
- 高光谱数据(数百个波段)
- 1D/基于块的模型(ViT风格)
- SSL预训练 → 微调流程
- 也尝试了k-NN和线性探针(效果仍然很差)
**我怀疑的原因:**
- 类别之间可能光谱上不太可分
- SSL方法是为RGB设计的,可能不适应
- 数据增强可能反而有害
- 模型没有捕获光谱特有的模式
**我寻求的建议:**
非常希望能得到以下方面的建议:
**更好的SSL方法用于高光谱数据**
- VICReg真的是这里的最佳选择吗?
- 我应该尝试掩码光谱建模吗?
**特征工程**
- 我应该加入植被指数(NDVI等)吗?
- 训练前进行PCA?
**模型架构**
- 1D CNN vs ViT vs 混合模型?
- 是否有经过验证的高光谱专用架构?
**评估**
- 验证SSL表示的最佳方法?
- 有什么技巧能提高线性探针结果吗?
**一般建议**
- 有人做过植物胁迫/高光谱分类吗?常见做法
相似文章
机器学习能否在数据受限条件下预测水稻产量?卫星气候数据、国家作物统计及来自塞拉利昂的经验教训
本文首次针对塞拉利昂作物产量预测开展机器学习研究,发现将免费卫星气候数据(CHIRPS、NASA POWER)与国家作物统计相结合,可将预测误差较持久性模型降低三分之一,但仅依赖作物统计数据则不足以实现改进。
植物表型组学中小数据量子学习的监督潜在重构
本文提出了一种面向小数据场景下植物表型组学分类的混合量子-经典工作流,通过监督潜在重构(PCA+LDA)在量子核对齐前提升几何可分性。实验显示可分性有所提升,但揭示了压缩权衡以及实现强量子性能的困难。
压力测试医学大语言模型揭示基准准确率之外的潜在安全病理
本文介绍了AI-MASLD,一个用于医学大语言模型的压力审计框架,揭示了基准准确率如何掩盖严重的安全故障,并展示了开放权重模型在安全维度上可以媲美或超越专有模型。
基础模型嵌入是否提升了跨国作物产量预测的泛化能力?一项针对撒哈拉以南非洲的留一国验证研究
本文评估了以 Prithvi-EO 为代表的地理空间基础模型嵌入,在撒哈拉以南非洲地区预测作物产量时,相较于传统 Sentinel-2 特征是否具备跨国泛化优势。研究发现,在严格的留一国交叉验证下,冻结的嵌入特征并未显著优于光谱中位数,表明国家层面的分布偏移是主要瓶颈,而非特征表示的质量。
选择性信号分类中的虚假安全感:对风险控制的边界紧密性与可交换性的审计
本文审计了信号域检测器中用于选择性分类的无分布风险控制方法的可靠性,发现朴素阈值法常常超出其声称的预算,并且可交换性违反导致证书失败。