机器学习能否在数据受限条件下预测水稻产量?卫星气候数据、国家作物统计及来自塞拉利昂的经验教训

arXiv cs.LG 论文

摘要

本文首次针对塞拉利昂作物产量预测开展机器学习研究,发现将免费卫星气候数据(CHIRPS、NASA POWER)与国家作物统计相结合,可将预测误差较持久性模型降低三分之一,但仅依赖作物统计数据则不足以实现改进。

arXiv:2606.13959v1 公告类型: 新 摘要: 塞拉利昂的农业决策几乎完全缺乏数据支持,且尚无已发表的机器学习研究对该国作物产量进行考察。我们探究在当前数据条件下能否预测水稻产量。利用2000-2024年间九种主要作物的25年FAOSTAT生产数据,我们在严格防泄漏协议下训练XGBoost、Gradient Boosting和Random Forest模型,采用扩展窗口滚动验证方法对七个留出年份进行测试,并以朴素持久性模型作为基准。仅基于作物统计训练的模型未能超越持久性模型。而加入免费卫星气候数据(CHIRPS降雨量、NASA POWER温度)后结果逆转:仅使用气候数据的XGBoost将预测误差降低了三分之一(RMSE 284 vs 428 kg/ha),这一优势在线性模型中同样成立,且排除异常年份2018年后仍保持稳健。早期季节(5-6月)降雨量是主导预测因子,表明季节性的产量风险在收获前数月即可观测。没有模型预测到2018年的产量骤降,其根源是制度性因素而非气候因素。我们将研究结果转化为对塞拉利昂“Feed Salone战略”的政策建议,并提供完全开源的代码流程。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:08

# 机器学习能否在数据受限环境下预测水稻产量?基于卫星气候数据、国家作物统计以及塞拉利昂的经验教训——对2023-2030年“全民粮食”战略的启示
来源:https://arxiv.org/html/2606.13959
易卜拉欣·丹尼斯·福法纳  
佩斯大学塞登伯格计算机科学与信息系统学院,纽约,美国  
塞拉利昂西非地区STEM与创新崛起非洲基金会

###### 摘要

农业吸纳了塞拉利昂大多数农村人口,但该部门几乎没有任何数据驱动的决策支持,且尚无已发表的机器学习研究专门考察塞拉利昂的作物产量。本文提供了首个此类证据基础,并提出了一个对该国“全民粮食”战略(2023-2030)具有直接影响的问题:基于塞拉利昂现有数据,能否预测水稻产量?

利用25年(2000-2024)FAOSTAT九种主要作物的生产数据,我们在严格的反泄漏协议下训练了三种集成算法(XGBoost、梯度提升、随机森林):仅使用滞后预测因子,并在7个保留年份(2018-2024)上采用扩展窗口滚动前进评估,以朴素持久性模型作为基准。答案是:不行——仅依赖作物统计数据的模型,其表现无法超越简单沿用上一年度产量的方法。

随后,我们将模型与免费获取的卫星气候数据(CHIRPS降雨量及NASA POWER温度)进行整合,这些数据按全国生长季节特征进行了聚合。这一做法扭转了结果。仅使用气候数据的XGBoost模型相对于持久性模型,将预测误差降低了三分之一(RMSE:284 vs 428 kg/ha),这一优势在线性模型中也同样成立,并且对排除异常年份2018年的情况具有稳健性。生长季早期(5-6月)降雨量是主导预测因子,这意味着季节性产量风险在收获前数月即可观测。研究也记录了两个边界:没有任何模型能够预测2018年的产量暴跌,其根源在于制度而非气候因素;而2020-2022年的创纪录产量出现在降雨量低于平均水平的情况下,这与近期政策计划驱动下的投入增长趋势一致。

研究结果对“全民粮食”战略传递出明确信息:塞拉利昂现有的农业统计数据无法支持产量预测,但将其与免费卫星气候数据结合后,预测已成为可能;而引入家庭层面的微观数据将能把预测扩展到决策所在的地区层面。完整的管道是开源的,可供其他数据受限的农业经济体复制。

关键词:机器学习,作物产量预测,数据泄漏,滚动前进验证,CHIRPS,塞拉利昂,全民粮食,撒哈拉以南非洲,粮食安全

## 1. 引言

### 1.1. 农业、数据与情报差距

在二十一世纪,农业已同样成为一个信息问题,而不仅仅是农学问题。在全球最富生产力的农业系统中,数据科学已经改变了农民的决策方式。卫星影像指导播种计划。机器学习模型在种子尚未入土前就能预测季节性产量。实时价格信息告知生产者何时何地出售。其结果是农业部门不仅高效,而且智能化:对信息反应灵敏、能够适应风险、并能大规模创造财富。

撒哈拉以南非洲并未平等地分享这一变革。小农户——他们经营的地块通常小于两公顷,且该地区大部分粮食生产由他们完成——继续在没有做出决策所需信息的情况下,做出重要的农业决策[1 (https://arxiv.org/html/2606.13959#bib.bib1)]。本季种什么?雨季何时到来?收获时市场会给出什么价格?这些并非抽象问题。它们决定了一个农户家庭是丰衣足食还是面临饥饿,而答案并非来自模型或预测,而是来自记忆、传统和近似估算。这一差距的后果最沉重地落在了那些最无力承受的人身上。

本文关注的是一个这种差距尤为严重、且弥合差距的代价尤为高昂的国家:塞拉利昂。

### 1.2. 塞拉利昂:农业潜力与长期表现不佳

塞拉利昂拥有约540万公顷的肥沃耕地,热带气候支持全年种植,河流系统滋养着每个地区的内陆河谷沼泽[2 (https://arxiv.org/html/2606.13959#bib.bib2)]。该国主食水稻在低地和高地生态系统中都自然丰产。木薯、甘薯、花生、油棕、可可和咖啡构成了一个农业组合,原则上足以养活全国人民并带来可观的出口收入。

然而在实践中,该部门长期表现不佳。塞拉利昂2023年生产了约14亿公斤大米,但这仍不足以满足国内需求[3 (https://arxiv.org/html/2606.13959#bib.bib3)]。仅在2022年,该国就进口了48万吨大米,这种依赖消耗了外汇储备,并使粮食安全易受全球价格冲击的影响[2 (https://arxiv.org/html/2606.13959#bib.bib2)]。更令人担忧的是,75%的耕地仍处于未耕种状态[2 (https://arxiv.org/html/2606.13959#bib.bib2)],这指向的并非土地或劳动力的稀缺,而是使耕种有利可图的支撑条件的稀缺:基础设施、投入品、市场准入和决策支持。

问题的另一个层面——也是本文作为更广泛研究议程第一步所推动的——是产后损失。撒哈拉以南非洲的小农户因腐败、储存不善、加工不足和运输故障损失了30%至50%的收成[7 (https://arxiv.org/html/2606.13959#bib.bib7),8 (https://arxiv.org/html/2606.13959#bib.bib8)]。在塞拉利昂,脱粒和扬谷靠手工进行,产后干燥在泥土地面和柏油路上进行,能够获得甚至基本的混凝土干燥设施的地区仅占农业社区的一小部分[9 (https://arxiv.org/html/2606.13959#bib.bib9)]。经济损失巨大,但更深远的影响是粮食不安全:截至2023年,塞拉利昂39%的人口生活在贫困线以下[10 (https://arxiv.org/html/2606.13959#bib.bib10)]。

### 1.3. 政策背景:“全民粮食”

2023年10月,总统朱利叶斯·马达·比奥启动了“全民粮食”战略,作为2024-2030年中期国家发展计划的旗舰倡议,其任务是将塞拉利昂的粮食系统从自给自足和依赖状态转变为有韧性、以商业为导向、由技术驱动的部门[4 (https://arxiv.org/html/2606.13959#bib.bib4)]。该战略的目标包括:使大米产量翻番、减少产后损失、以及将数字和数据驱动工具整合到农业推广和规划中[4 (https://arxiv.org/html/2606.13959#bib.bib4)]。

然而,农业与粮食安全部自身的评估指出了关键制约因素:MAFS缺乏监测、评估和指导自身政策所需的数据基础设施和技术能力[5 (https://arxiv.org/html/2606.13959#bib.bib5)]。农村地区的实地工作人员甚至缺乏基本分析工具方面的培训。规划、评估、监测与统计司管理的分散监测系统难以产生及时的地区级情报[5 (https://arxiv.org/html/2606.13959#bib.bib5)]。“全民粮食”的雄心超出了现有数据系统所能支持的范围。

本文正是针对这一差距,但不是假设数据驱动的预测在塞拉利昂可行,而是通过严格的测试来验证它是否可行、使用哪些数据以及存在哪些限制。

### 1.4. 研究空白

过去十年,机器学习在农业预测中的应用取得了显著增长。集成方法,尤其是随机森林、XGBoost和梯度提升,在不同农业环境下的作物产量估算中持续展现出强大的预测性能[15 (https://arxiv.org/html/2606.13959#bib.bib15),16 (https://arxiv.org/html/2606.13959#bib.bib16)]。可解释人工智能框架使这些模型对非专业用户越来越有用[17 (https://arxiv.org/html/2606.13959#bib.bib17)]。

然而,这些工作的地理分布并不均衡。对作物产量预测文献的系统综述发现,虽然南非、加纳和东非越来越多地得到呈现,但西非,特别是塞拉利昂,在已发表的文献中几乎不存在[12 (https://arxiv.org/html/2606.13959#bib.bib12)]。唯一一篇直接考察塞拉利昂产后损失的已发表研究,使用了传统统计方法,对八个地区的232名稻农进行了抽样[13 (https://arxiv.org/html/2606.13959#bib.bib13)]。尚无基于塞拉利昂具体产量数据的机器学习研究。

本文还直接针对第二个方法论空白。许多小样本农业机器学习文献报告了极高的样本内或随机交叉验证精度(R² > 0.95 很常见),而它们基于的全国年度时间序列往往只有几十个观测点。如第4.4节所讨论,这种设计极易受到目标泄漏以及随机训练-测试分割中时间信息交叉污染的影响[23 (https://arxiv.org/html/2606.13959#bib.bib23),24 (https://arxiv.org/html/2606.13959#bib.bib24)]。本研究采用了严格的反泄漏协议和滚动前进评估,并将每个模型与朴素基线进行对比,正如结果所示,这一纪律完全改变了结论。

### 1.5. 研究问题

本研究围绕三个研究问题展开:

1.  是否可以仅使用塞拉利昂现有的农业统计数据(25年FAOSTAT作物数据,2000-2024年),在滚动前进验证下以朴素基线进行对比,来预测该国水稻产量?
2.  将那些统计数据与免费的卫星气候数据(CHIRPS降雨量、NASA POWER温度)相结合是否会改变答案?哪些气候信号承担了预测权重?
3.  结果对2023-2030年“全民粮食”战略的实施,以及为使数据驱动的农业治理在塞拉利昂可持续发展所需的数据基础设施投资有何启示?

### 1.6. 贡献

本研究有四方面贡献。首先,它提供了首个专门针对塞拉利昂农业构建的机器学习证据基础,在严格评估下确定了该国现有公共数据能够支持什么、不能支持什么。其次,它证明了免费卫星气候数据(无需账户、许可证或费用)足以将全国水稻产量预测从不可能变为有用,将样本外误差相对于朴素持久性模型降低了三分之一。第三,作为一个方法论案例研究,它记录了标准但有缺陷的设计(同年特征、随机训练-测试分割)如何恰好在这类小型全国时间序列上产生虚假精度。第四,它将研究结果转化为与“全民粮食”战略相一致的具体、基于数据的政策建议,并归档了完整的开源管道,供其他数据受限的农业经济体复制。

### 1.7. 论文组织

第2节回顾相关文献。第3节描述研究背景和三个数据来源。第4节介绍方法论框架,包括反泄漏协议和验证设计。第5节报告结果。第6节讨论发现、局限性和政策启示。第7节以政策建议作结。

## 2. 文献综述

### 2.1. 机器学习在农业预测中的应用

过去十年,机器学习在作物产量预测中的应用已相当成熟。早期方法依赖线性回归和简单统计模型,将产量估计为降雨量和温度的函数[22 (https://arxiv.org/html/2606.13959#bib.bib22)]。这些方法的局限性——主要是无法捕捉非线性关系、交互效应和空间变异——推动了向集成方法和深度学习架构的转变,后者如今主导着该领域。

在监督学习算法中,随机森林、XGBoost和梯度提升机已成为跨不同农业环境进行作物产量预测最持续可靠的方法[15 (https://arxiv.org/html/2606.13959#bib.bib15),16 (https://arxiv.org/html/2606.13959#bib.bib16)]。深度学习架构,特别是LSTM网络和CNN,在整合卫星衍生植被指数和遥感数据时显示出强劲结果[12 (https://arxiv.org/html/2606.13959#bib.bib12)]。然而,这些架构需要大量的训练数据集和计算资源,这在数据受限环境中很少具备。对于撒哈拉以南非洲的小农农业,主要的结构化数据来源是较短的行政时间序列,而非密集的卫星堆栈,因此集成方法提供了一条更实用且可解释的预测路径[17 (https://arxiv.org/html/2606.13959#bib.bib17)]。

可解释性问题值得强调。农业机器学习文献中一个反复出现的批评是,无论黑箱模型多么准确,对需要理解并信任模型输出的农民、推广官员和政策制定者而言,其用途有限[12 (https://arxiv.org/html/2606.13959#bib.bib12)]。SHAP(SHapley Additive exPlanations)已基本解决了这一问题,它提供了特征层面的归因,使非专业用户能够理解模型输出[21 (https://arxiv.org/html/2606.13959#bib.bib21),17 (https://arxiv.org/html/2606.13959#bib.bib17)]。本研究整合SHAP分析反映了这一优先考量。

### 2.2. 小样本产量预测中的验证陷阱

日益增长的方法论文献警告说,时间序列环境下的预测精度主张,其可信度完全取决于背后的验证设计。对于全国年度产量序列,两种失效模式尤为相关。第一种是目标泄漏:包含了与结果变量存在函数关系或近似重复的预测因子[23 (https://arxiv.org/html/2606.13959#bib.bib23)]。在国家作物统计中,这很容易发生。例如,在一个以某一种谷物为主的国家,总体的“谷物”指标在算术上几乎与该作物的单独序列相同。第二种是通过随机分割产生的时间泄漏:当年度观测随机分配到训练集和测试集时,测试年份的信息通过相邻年份的滞后和滚动特征进入训练集,评估不再模拟真实的预测[24 (https://arxiv.org/html/2606.13959#bib.bib24),25 (https://arxiv.org/html/2606.13959#bib.bib25)]。这两种失效模式都会在小样本上大幅膨胀R²。适当的补救措施——即严格滞后的或外生预测因子、扩展窗口滚动前进评估、以及与朴素基线的比较——在本研究中已被全面采纳,并将在

相似文章

基础模型嵌入是否提升了跨国作物产量预测的泛化能力?一项针对撒哈拉以南非洲的留一国验证研究

arXiv cs.LG

本文评估了以 Prithvi-EO 为代表的地理空间基础模型嵌入,在撒哈拉以南非洲地区预测作物产量时,相较于传统 Sentinel-2 特征是否具备跨国泛化优势。研究发现,在严格的留一国交叉验证下,冻结的嵌入特征并未显著优于光谱中位数,表明国家层面的分布偏移是主要瓶颈,而非特征表示的质量。

物理信息机器学习用于短期洪水预测

arXiv cs.LG

研究人员提出了一种物理信息机器学习(PIML)框架,将水文约束整合到LSTM损失函数中,以改善短期洪水预报,特别是在数据稀缺的情况下。一种“趋势对齐”约束确保了降水与流量趋势之间的一致性,提高了纳什-苏特克利夫效率,并消除了极端事件期间的非物理预测。

评估塞拉利昂及其他地区AI辅助学习的影响

Google DeepMind Blog

在塞拉利昂进行的一项预先注册试验发现,AI驱动的 Guided Learning 显著提高了数学成绩,在八周内实现了1.2至1.7年的进步,同时教师报告称其专业成长得到加强,并转向了引导者角色。