利用精简数据衡量贫困与不平等:一种基于尼日利亚住户数据的机器学习方法
摘要
本文应用随机森林递归特征消除(RF-RFE)对尼日利亚住户调查数据进行分析,旨在识别能够准确分类贫困状态、五分位分布和不平等位置的最小预测因子。研究表明,机器学习可以在减少数据需求的同时,保留用于监测贫困与不平等的分布信息。
arXiv:2606.07614v1 公告类型:新
摘要:对于低收入和中等收入国家而言,可靠地衡量收入与消费对于监测贫困与不平等至关重要,然而全面的住户调查成本高昂且难以定期实施。本文探讨了缩减的调查工具能否保留关键的分布信息。我们将随机森林递归特征消除(RF-RFE)应用于2018/19年尼日利亚通用住户调查面板数据,以识别最能对福利分布中的个体进行分类的收入来源、消费类别和住户特征。分析聚焦于三个结果:贫困状态、在五分位分布中的位置以及相对于基于基尼系数的不平等线的位置。调查中的种植后和收获后时期使我们能够评估不同季节背景下的表现。结果表明,RF-RFE能够用少量预测因子实现强大的分类准确性。在消费方面,使用少量支出类别即可准确预测贫困状态和不平等线位置,而五分位分类对于季节性消费可达到约80%的准确率,对于通过单次季节性访问预测的年消费可达到60-65%的准确率。在收入方面,使用五个预测因子,贫困状态准确率可达约90%,且不平等线位置主要由劳动收入捕获。研究结果表明,机器学习方法有助于改进调查设计并减少数据需求,同时保留衡量和监测贫困与不平等所需的大部分分布信息。
查看缓存全文
缓存时间: 2026/06/09 08:51
# 利用简化数据测量贫困与不平等
## 摘要
可靠的收入和消费测量对于监测中低收入国家的贫困与不平等至关重要,然而完整的住户调查成本高昂且难以定期实施。本文探讨了简化调查工具是否能够保留关键的分配信息。我们采用随机森林递归特征消除(RF-RFE)方法,对2018/19年尼日利亚通用住户调查面板数据进行分析,以识别最能对福利分布中的个体进行分类的收入来源、消费类别和住户特征。分析聚焦于三个结果:贫困状态、五等分分布位置以及基于基尼系数的不平等线相对位置。该调查的种植后和收获后两个时期使我们能够评估不同季节情境下的表现。结果显示,RF-RFE在仅使用少量预测变量时即可实现较高的分类准确率。在消费方面,利用少量支出类别即可准确预测贫困状态和不平等线位置;而对于五等分分类,季节性消费的准确率约为80%,而通过单次季节访问预测的年度消费准确率为60-65%。在收入方面,使用五个预测变量时贫困状态准确率可达约90%,而不平等线位置主要通过劳动收入捕捉。研究结果表明,机器学习方法有助于改进调查设计并减少数据需求,同时保留测量和监测贫困与不平等所需的大部分分配信息。
**关键词:** 消费测量,贫困,不平等,随机森林,住户调查,尼日利亚
**JEL分类:** C38, C55, D31, I32, O55
## 1 引言
收入和消费的准确测量是贫困与不平等分析的核心。收入反映了家庭通过劳动、农业、企业、转移支付及其他来源获取的资源流,而消费支出则反映了资源如何用于满足需求和维持生活水平。这些福利总量指标共同使研究者和政策制定者能够识别贫困状况、监测分配变化,并评估经济资源在个人、家庭和社区之间分配不均的程度。
收入和消费服务于不同的分析目的。收入数据通常与不平等分析更直接相关,因为它们捕捉了特定时间点上对资源的支配能力,并且与国际上公认的统计定义(如堪培拉集团所确立的定义)紧密契合。收入也与劳动收入、资本收入和转移支付的分布密切相关,因此是不平等研究的核心。相比之下,消费支出在贫困分析中常被优先使用,尤其是在低收入环境中,因为它通常比收入波动更小,且能更好地近似长期生活水平。消费可以平滑暂时性的收入波动,因此能提供更可靠的物质匮乏指标,尤其是在福利分布的底部。
在撒哈拉以南非洲,住户调查传统上优先收集详细的消费支出数据,而非全面的收入数据。诸如生活水平测量研究(LSMS)等大型调查项目已采用消费总量作为主要福利指标。这既反映了概念上的考虑,也反映了实际操作中的考量。在以非正规经济、自雇和自给农业为特征的经济体中,收入难以准确测量,因为它不规则、具有季节性,且通常来自多种活动。详细的消费模块虽然也成本高昂且耗时,但往往能提供更稳定、更可靠的福利估计。因此,该地区的贫困测量绝大多数基于消费,而在有收入数据的情况下,常将其用于对收入、生计和不平等的补充分析。
然而,通过具有全国代表性的住户调查收集收入和消费数据需要大量的财力和人力资源。此类调查需要训练有素的调查员、复杂的问卷模块、在季节性重要的地区进行多次入户访问、数据收集技术、实地监督和统计专业知识。¹¹¹ 在撒哈拉以南非洲实施LSMS型调查的成本很高。虽然成本因样本量、地理区域和调查设计而异,但世界银行独立评估组估计,一次标准全国住户调查的平均成本约为170万美元。按每户计算,非洲调查情境下的成本在每户100至500美元之间,这反映了到达偏远农村人口的高边际成本以及计算机辅助个人访谈技术的日益普及。2016年至2030年间,通过住户调查监测可持续发展目标的全球需求预计接近9.45亿美元。
这些成本限制了全面福利调查的实施频率,尤其是在统计能力有限的中低收入国家。这也产生了对更简短工具的实际需求,这些工具能够保留关键的分配信息,同时减轻受访者负担和实地工作成本。越来越多的文献发展了使用较少调查问题来近似收入或消费的替代策略。这些策略包括:通过主成分分析构建的基于资产财富指数、用于预测贫困状态的监督式代理经济状况测试和贫困计分卡、基于选定支出类别的缩短消费模块、旨在减少报告误差的单题或区间收入问题,以及基于自评经济状况的主观福利测量。这些方法减轻了调查负担,但它们通常是为特定目的设计的,如贫困瞄准、广泛财富排名或快速监测。它们并非旨在同时保留多种分配分类。
本文通过提出一种机器学习方法来识别一组简洁的收入来源和消费类别(可用于对福利分布中的个体进行分类),从而为福利测量文献做出贡献。具体来说,我们实施了随机森林递归特征消除(RF-RFE),这是一种监督式特征选择方法,根据候选变量的预测贡献对其进行排序,并评估模型在逐渐减小的预测变量集上的表现。与通常设计用于识别贫困线以下家庭的标准化代理经济状况测试方法不同,我们的方法评估简化调查工具是否能保留三种互补的分配结果:贫困状态、五等分分类以及相对于基于基尼系数的不平等线的位置。
实证分析使用了2018/19年收集的第四波尼日利亚通用住户调查面板数据。尼日利亚为此项研究提供了相关背景,因为其家庭福利受到农业季节性、收入波动、区域异质性以及正规、非正规和自给经济活动的共存影响。该调查的种植后和收获后访问使我们能够检验简化工具在不同季节信息集下是否表现不同。我们根据完整的调查模块构建基准收入和消费总量,推导出相应的贫困、五等分和不平等线分类,然后评估RF-RFE模型在使用少得多的预测变量时,这些分类的再现准确度。
结果表明,简化模型可以保留大量的分配信息,尽管性能因福利概念和信息集而异。对于消费,贫困状态和相对于基尼不平等线的位置可以用少量支出类别准确预测。五等分分类要求更高,尤其是当年度消费从单次季节访问预测时,但汇总的消费类别在季节性福利排名中仍能达到高准确率。信息量最大的消费预测变量包括食品、外出就餐、根茎类蔬菜、蔬菜和房租,在某些贫困阈值和季节下略有变化。对于收入,一小部分变量(包括作物销售、劳动收入、汇款、非农企业收入、牲畜销售、养老金和租金收入)提供了对个体在收入分布中进行分类所需的大部分预测信息。仅用少数预测变量,收入贫困状态即可达到高准确率,而相对于基尼不平等线的位置尤其被劳动收入很好地捕捉。
我们的分析有两个核心含义。首先,它表明基于机器学习的特征选择有助于识别一小部分福利变量,这些变量保留了监测贫困和不平等所需的大部分信息。其次,它强调了最优简化模块取决于所测量的福利概念。二元贫困和不平等线分类比五等分分类更容易再现,且季节信息对于基于消费的福利测量至关重要。因此,简化工具的设计应明确关注目标分配结果,而不是被视为全面收入或消费调查的通用替代品。
本文其余部分组织如下:第2节阐述了用于构建基准收入和消费总量的福利测量框架。第3节回顾了现有的简化收入与消费测量方法。第4节介绍了RF-RFE框架并定义了目标分类结果。第5节描述了尼日利亚GHS面板数据和分析样本的构建。第6节展示了消费和收入分类的实证结果。第7节报告了使用替代等值规模和机器学习算法的稳健性检验。第8节以对调查设计和福利监测的启示作为结论。
## 2 福利总量与简化数据测量问题
本节阐述用于构建基准收入和消费总量的福利测量框架,简化数据模型将以此为基础进行评估。我们关注收入和消费支出,它们捕捉了家庭经济福祉相关但不同的维度。
收入衡量可供家庭用于当前消费和储蓄的资源流。遵循堪培拉集团框架,家庭收入包括按年度或更频繁间隔收到的、可用于当前消费且不减少家庭净值的货币和实物收入。这排除了资产出售、借贷、意外收益和资本转移。相比之下,消费支出衡量家庭在参考期内获得或消费的商品和服务的价值。在中低收入环境中,消费在贫困分析中常被优先使用,因为它比收入波动更小,且能更好地近似长期生活水平,而收入对于分析收入、转移支付和不平等仍至关重要。
在下面讨论的实证分析中,家庭收入定义为:
$$Y_h = Y_h^L + Y_h^A + Y_h^{LV} + Y_h^{NF} + Y_h^T + Y_h^O, \quad (1)$$
其中 $Y_h^L$ 表示劳动收入,$Y_h^A$ 表示作物收入,$Y_h^{LV}$ 表示牲畜收入,$Y_h^{NF}$ 表示非农企业收入,$Y_h^T$ 表示汇款及私人或公共转移支付,$Y_h^O$ 表示其他收入来源,包括养老金、租金收入、利息和股息。农业、畜牧业和非农企业收入以扣除生产成本后的净额计量(当调查提供相关信息时),这符合中低收入国家福利测量的标准LSMS实践。
其次,家庭消费支出定义为:
$$C_h = C_h^F + C_h^{NF} + C_h^H, \quad (2)$$相似文章
机器学习能否在数据受限条件下预测水稻产量?卫星气候数据、国家作物统计及来自塞拉利昂的经验教训
本文首次针对塞拉利昂作物产量预测开展机器学习研究,发现将免费卫星气候数据(CHIRPS、NASA POWER)与国家作物统计相结合,可将预测误差较持久性模型降低三分之一,但仅依赖作物统计数据则不足以实现改进。
类别不平衡约束下少数类财务困境预测的机器学习方法比较评估
本文对在严重类别不平衡条件下预测财务困境的经典方法、集成方法和神经网络方法进行了比较评估,使用SMOTE进行过采样,SHAP进行可解释性分析。
基于嵌入的联邦学习与运行时治理的铁缺乏预测
本文提出了一种基于嵌入的联邦学习流水线,用于从常规血常规数据预测铁缺乏,并在两个具有非独立同分布(non-IID)分布的临床站点部署。结果表明,个性化聚合(FedMAP)优于标准FedAvg和仅本地训练,在两个站点均实现了更高的ROC-AUC。
无需数据清洗即可获得高质量预测(为何“垃圾进,垃圾出”有时是一种误区)
这篇arXiv预印本挑战了“垃圾进,垃圾出”的经验法则,认为在高维表格数据中,激进的手动数据清洗可能会通过减少三角测量潜在驱动因素所需的维度,从而限制预测性能。
面向有限语义表格数据的大型语言模型:来自工业车辆改装预测的证据
本文评估了基于大型语言模型(LLM)的策略(嵌入、提示、混合)与经典表格模型在一个包含哈希化类别特征的工业车辆改装预测数据集上的表现。研究发现,树集成整体上优于LLM,但嵌入和混合方法仍有价值,而在缺乏语义线索时直接提示失败。