构建社会经济地位指数:如何使用主成分分析外文翻译资料

 2023-01-01 08:01

本科毕业设计(论文)

外文翻译

构建社会经济地位指数:如何使用主成分分析

作者:Seema Vyas,L Kumaranayake

国籍:英国

出处:Health Policy and Planning,2006,21(6):459-468.

中文译文:

摘要:从理论上讲,家庭财富的度量可以通过收入,消费或支出信息来反映。 但是,收集准确的收入和消费数据需要大量的资源用于家庭调查。鉴于在使用资产数据创建社会经济地位(SES)指数时越来越频繁地应用主成分分析(PCA),我们将回顾如何构建基于PCA的指数,如何使用它们以及它们的有效性与局限性。 具体来说,本文涉及到变量选择、数据准备和数据聚类等问题。此外,还讨论了对家庭进行分类的方法的对结果的解释。主成分分析已被证实是一种描述人群中社会经济地位差异的方法。与基础数据相关的问题将影响主成分分析,在生成和解释结果时应考虑这一点。

关键字:社会经济地位;主成分分析;聚类分析;方法论

1.引言

卫生研究和政策干预的共同点在于,人们担心由于社会经济地位(SES)的不同,对卫生结果或卫生服务利用有不同的影响(Deaton 2003;Schellenberg等人,2003)。因此,关于家庭如何因社会经济地位而变化的信息,以及这种变化在多大程度上与利益变量有关的信息,对于诸如如何确定最贫困人口等问题至关重要。 社会经济地位的标准经济指标使用货币信息来衡量,例如收入或消费支出。但是,收集准确的收入数据是一项艰巨的任务(Montgomery等人,2000),需要大量的资源用于家庭调查。例如,需要为从多种来源获得收入的家庭和个人提供津贴。此外,在某些情况下,收入指标相当难以使用(Cortinovi等人,1993)。例如,由于会计问题和季节性,收入信息不能反映人们(特别是穷人)可能有的实物收入,例如被交易的作物;而且由于会计问题和季节性,对自营或临时就业者(例如农业工作)来说,很难衡量收入(McKenzie,2003)。

相比之下,消费或支出指标要可靠得多,而且比收入指标更容易收集,特别是在大多数农村地区(Filmer 和 Pritchett,2001)。然而,限制是需要收集大量的数据,这很费时,因此成本很高。考虑到在中低收入国家在衡量家庭收入或支出上的资源限制,目前正在使用其他方法来构建社会经济地位指数,用以简化所需的变量,使数据能够更快地收集。收集的数据不是收入或支出,而是反映生活水平的变量,例如家庭拥有的耐用品(如电视、汽车)以及基础设施和住房特征(如水源、卫生设施)。

虽然越来越多地被使用基于资产的方法,但对其使用的方式仍然存在一些争论。一个重要且关键的问题是,这些措施更多地反映了长期的家庭财富或生活水平,没有考虑到短期或暂时的中断或对家庭的冲击(Filmer和Pritchett ,2000)。因此,如果利息的结果与家庭现有资源相关,那么基于资产的指数可能不适合作为衡量标准。

Falkingham和Namazie(2002)强调了第二个问题,即所有权并不总是反映资产的质量。例如,收集关于电视所有权的信息并不能区分更有可能拥有较新电视或彩色电视的富裕家庭和可能拥有旧电视或黑白电视的较不富裕家庭。不过,他们也指出,在许多国家,这不会改变财富的总体状况。

第三个问题是,一些变量可能在不同的子群体中与社会地位有不同的关系;例如,农田所有权可能更能反映农村地区的财富。

最后一个问题是,如何在不同变量的范围内进行聚合,从而得出衡量社会经济水平的一维度量水平,并产生一系列区分社会经济水平的临界点。这是因为单独使用的每个变量可能不足以区分家庭社会经济地位。例如Montgomery等人(2000)使用的一种方法是,将家庭中的资产数量相加,但这需要假设所有资产都已经进行平均加权。最近的研究是将主成分分析(PCA)应用于此类数据,以得出社会经济地位指数(Gwatkin等人,2000;Filmer 和 Pritchett,2001;McKenzie, 2003),然后将家庭分成预先确定的类别,如分成5类,用以反映不同的社会地位水平。

考虑到使用资产数据的主成分分析在建立系统经济评价指数中日益普遍的应用,我们回顾了基于主成分分析的指数是如何构建的,以及它们是如何使用的。并通过一个实例评估了它们的优点和局限性。将会在第2节解释主成分分析,在第3节,使用来自城市和农村环境的数据,构建社会经济地位指数和说明如何使用指数。在第4节,对基于主成分分析的指数进行评估。

2.什么是PCA?

主成分分析(PCA)是一种多元统计技术,用于将数据集中的变量数量减少到更少的“维数”数量。用数学术语来说,主成分分析从个相关变量的初始集合中创建不相关的指数或分量,其中每个分量是初始变量的线性加权组合。例如,从一组变量到,

其中代表第个主成分的第个变量的权重。

从图表上看,主成分分析的概念如图1所示。这些组件的不相关性通过它们是垂直的(即彼此成直角)这一事实而突显出来,这意味着这些指数测量的是数据中的不同维度(Manly 1994)。

每个主成分的权重由相关矩阵的特征向量给出,或者如果原始数据经过标准化,则由协方差矩阵给出。

每个主成分的方差()由相应特征向量的特征值给出。对这些分量进行排序,以使第一个分量()解释原始数据中最大的变化量,但要遵守平方权重之和()等于。由于特征值之和等于初始数据集中的变量数,因此每个主成分占原始数据集中总变化量的比例由给出。第二主成分()与第一主成分完全不相关,并且在相同的约束下,解释了第一主成分以外的、更少的变化。后续主成分与先前主成分不相关;因此,每个主成分都在数据中捕获了一个额外的维度,同时解释了原始变量变化的比例越来越小。数据中原始变量之间的相关程度越高,捕获公共信息所需的主成分就越少。

3. 用PCA构建SES指数。

使用来自人口健康调查(DHS)的数据(来自[http://www.measuredhs.com]),本节针对两个形成鲜明对比的国家(巴西和埃塞俄比亚)得出了基于PCA的SES指数。在60多个国家开展了DHS家庭调查,重点是健康结果和营养,并包含家庭特征数据,而不是收入或支出数据。世界银行在其 “健康、营养和人口方面的社会经济差异”系列报告中,也使用了DHS数据构建了基于PCA的资产指数(如Gwatkin等人,2000),在我们的示例中,我们为每个地点(即两国城市和农村地区的家庭)构建了一个社会经济指数,以说明在使用和解释基于主成分分析的社会经济系统时出现的一些问题。可以使用标准统计软件,在这种情况下,使用的是STATA(8.1版)。

我们将这一部分分为四个部分来反映构建社会经济地位指数的主要步骤:资产变量的选择;主成分分析的应用;结果的解释;以及将家庭划分为社会经济群体。第一部分探讨了常用的资产和变量的选择问题,特别是聚类和截断、家庭分类的稳定性和可靠性。第二部分着重介绍了方法论问题,如数据的准备,以及确定用于衡量社会经济地位的主要成分的数量。第三小节解释了资产数据的主成分分析结果,第四小节介绍了将家庭划分为社会经济群体的方法。

3.1 资产变量的选择

为了测量社会地位,研究使用了诸如土地所有权(Filmer和Pritchett,2001年)、农场动物以及是否居住在出租或自有住房中等变量(Schellenberg等人,2003),户主的识字率或受教育程度,人口状况(例如,人口数量与房间数量之比),以及其他经济指标,如户主的职业(Cortinovis等人,1993)。Montgomery等人(2000)指出,在选择替代生活标准的变量方面缺乏“最佳做法”,因为在许多研究中,变量是在“特定”的基础上选择的。

在DHS,我们收集了关于耐用资产所有权、公用设施和基础设施(如卫生设施和水源)以及住房特征(如卧室数量和建筑材料)的信息,并将其纳入我们的分析。

当资产变量相关时,主成分分析的效果最好,但是当变量的分布在不同的情况下,或者在这种情况下,在不同的家庭中也不同时,主成分分析的效果也最好。在主成分分析中,更重要的是家庭之间分配不均的资产(McKenzie,2003)。标准差较低的变量在主成分分析中的权重较低;例如,所有家庭都拥有或没有家庭拥有的资产(即零标准差)在家庭之间不会表现出任何差异,并且将是零权重的,因此在区分社会地位方面用处不大。

因此,作为第一步,我们对所有变量进行了描述性分析,观察平均值、频率和标准偏差(见表1)。描述性分析可以为哪些变量应包括在分析中提供决策依据,并突出数据管理问题,如变量编码和缺失值。在巴西农村和埃塞俄比亚城市,耐用资产所有权的指标从大多数拥有收音机的家庭到少数拥有汽车的家庭不等。此外,巴西农村的供水来源和埃塞俄比亚城市的地板材料类型因家庭而异。在巴西城市,绝大多数家庭拥有所列全部或大部分资产,并在住宅中有水龙头,尽管卫生设施的类型有所不同。然而,在埃塞俄比亚农村,很少有家庭拥有资产或任何正式的卫生设施,大多数家庭都有基本类型的地板材料(例如泥土或沙子、粪便)。

McKenzie (2003)强调,基于主成分分析的资产指数面临的一个主要挑战是确保包含的资产变量范围足够广泛,以避免“聚集”和“截断”问题。聚集或集群被描述为家庭被分组在少数不同的集群中。截断意味着社会经济地位的分布更加均匀,但分布范围较窄,使得区分社会经济群体变得困难(例如,不能区分穷人和非常贫穷的人)。从资产所有权的分布、公用设施和基础设施的使用以及我们分析中的住房特征来看,聚集和截断可能是埃塞俄比亚农村数据的问题。这是因为许多家庭没有耐用物品,有类似的公用设施和基础设施,以及类似的住房特点,因此将被归在一起。此外,在拥有资产的家庭中,他们拥有相同的资产,这将使他们难以区分。聚集和截断可能是巴西城市的一个问题,因为大部分包含的耐用资产的所有权水平较高,但我们不认为这是巴西农村或埃塞俄比亚城市的问题。

如果从描述性分析中发现聚集和截断是潜在的问题,如埃塞俄比亚农村的情况,那么可以解决这个问题的一个方法是在分析中增加更多的变量。研究中使用的变量数量从10(Schellenberg等人,2003年)到30(McKenzie,2003年)不等。其他方法可以是使用连续变量(例如土地英亩数),并结合使用资产持久所有权、公用设施和基础设施的使用情况、住房特征和其他在评估家庭财富时似乎相关的变量。Hanson等人(2005年)的一项研究中,使用了与资产和每月家庭支出相关的初步分析,以确定要收集的指标的选择。只有与支出显著相关的资产变量才会被纳入他们的后续调查。

附:外文原文

Constructing socio-economic status indices: how to use principal components analysis

Theoretically, measures of household wealth can be reflected by income, consumption or expenditure information. However, the collection of accurate income and consumption data requires extensive resources for household surveys. Given the increasingly routine application of principal components analysis (PCA) using asset data in creating socio-economic status (SES) indices, we review how PCA- based indices are constructed, how they can be used, and their validity and limitations. Specifically, issues related to choice of variables, data preparation and problems such as data clustering are addressed. Interpretation of results and methods of classifying households into SES groups are also discussed. PCA has been validated as a method to describe SES differentiation within a population. Issues related to the underlying data will affect PCA and this should be considered when generating and interpreting results.

Key words: socio-economic status, principal components analysis, cluster anal

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[268462],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。