用主成分分析法和层次聚类法研究影响山区公路边坡的稳定性的环境因素
Huiqin He bull; Shaocai Li bull; Hailong Sun bull;Ting Yang
摘要:选取在中国四川盆地管理的147个路边的土壤样本中的九种环境因素。同时我们知道主成分分析是采用Pearson相关系数矩阵进行分析的。结果表明,前四个主成分的特征根大于1.00,可以被提取。第一主成分是岩石类型的组成部分,包括土壤类型,风化程度,其中土壤深度是最重要的影响因素。由高度,经度和纬度组成的地理位置被包括在第二和第三主成分里。第四个主成分表示影响岩石边坡稳定的地形因素。层次聚类表明,岩石类型和土壤类型发挥了最大的正相关性,而坡度和纵横面呈现了最大的负相关性。
关键词:坏境变量、岩石、山区路边、层次聚类、PCA
引言
随着植被恢复作用在岩质边坡稳定性和路边景观恢复上的增强,植被恢复作为一种控制岩石被侵蚀和稳定岩质边坡的有效措施被采取(Tinker1998)。石坡
稳定性受许多因素影响,包括地质构造,发展状况,土壤性质,坡度状态和地理位置等。由于变量的高度相关性,所以很难知道最重要的影响因素以及它是如何影响边坡稳定度。而路边的斜坡问题是生态恢复的一个关键问题。主成分分析(PCA)也是多元统计分析中最重要的部分。通过压缩变量的个数和减少原始数据的共线性,可以高度变换相关变量变到较少的变量(Thorpe1988)。PCA的基本方法是通过对主导本征向量的线性组合来计算特征向量的协方差矩阵和近似原始数据(Annoni2007)。它的有效性在克服不稳定性和病态矩阵的结构分析中已经得到了证实。它可以得到原始变量的充分信息并能通过构建模型得到准确的结果(Sousa2007)。PCA已广泛应用于社会科学如天文学(Ronen1998),地理,物理,化学和生命科学(Fievez2003),在数据压缩,图像处理上也取得了很大的进展(Calder2001),除此之外,在视觉隔离,探索性数据分析,模式识别(Doty1994;Guo2004)和时间序列预测(Berrar2003)上都有相关应用。在环境领域,PCA是用来分析肥料和生物量之间的关系(Morillo2008;Seabloom2003年);一些集中分析植被和环境的关系(Orsquo;Lenic 和Liverzey 1988; Inger 2008;White 和Hood 2004)和物种多样性及其生长地方(ter Braak1983)。最近,一些研究已经在路旁边坡的稳定性的认知方法上做了调查(ter Braak1989,Wiser 1996)。
在本文中,用两种不同的方法,即PCA和层次聚类法来研究影响中国西南地区大规模四川盆地中岩质边坡稳定性的主要因素。另外,岩石稳定性模型将从两方面(定性和定量)来表现环境因素之间的关系。
位置描述
四川盆地是中国著名的四大盆地之一。由NE-SW和北东向的断层组成,分为边缘山地和盆地底部两大部分,其覆盖面积约260000平方公里,特别地貌包括7%的平原,52%的丘陵,以及41%的低山。所有的地理位置都分布在北纬29°19′40Prime;–32°15′34Prime;和经度102°57′52Prime;–105°33′30Prime;之间(图1)。现场数据收集来自于海拔高度280米以上到1020米的路边斜坡。由于西风环流和西南季风影响,那里属于亚热带气候。年平均气温为17.5℃,月平均气温最低为5℃至8℃,最高为25℃至29℃。年平均降雨量为1000〜1300毫米,其中约75%的降雨主要集中在六月至十月。自然植被属于 亚热带常绿阔叶林。在那里,主要岩石类型是红砂岩和页岩,主要的土壤类型是紫色的壤土。
图1:中国四川盆地147路边的斜坡地块的空间分布图
对象和方法
选取来自2007年10月建立并研究的盆地周围80个岩石路中的147个样本。该位置定在公路沿线至少15米长和沿阶坡10米高的地方,以满足达到最小规模。样品位置定在调查区域的中间位置。综合考虑,草样本设置1米times;1米,2米times;2米的灌木和5米times;5米的数目,样本总数为147。变量包括坡度,坡向和岩石种类,风化程度,土壤类型,土壤深度,海拔,纬度,经度,都要记录并计算。九个变量的标准分类方法如下:根据岩石的形成的原因可定性分为三种类型。岩石风化程度可以由风化孔隙的比例进行定量分析,风化孔隙的比例就是风化岩石吸入水的质量与风化岩石干燥部分质量的比值。岩石风化程度根据比率可分为四种类型:完全风化,强风化,弱风化和轻微的风化。土壤类型的测定使用比重计,根据物理砂土和物理粘土的比例进行土壤质地的分类,并因此而命名。土壤深度是用大地钻从土壤地表垂直向下测量的,并以厘米作为测量单位。当土壤厚度薄时,可以将土壤剖面挖出来直接测量。地理位置和地形分别由便携式全球定位系统(GPS)和指南针测量。
数据分析
主成分分析
用社会科学统计软件包(SPSS)16.0版本对147个样本量中的9个变量进行操作分析。主要步骤如下:(1)原始数据标准化。 由于9个变量的数据类型,数据格式和数据单位是不同的,因此直接分析是不合理。原始数据通过主成分得分变换到相同的规模进行标准化的,产生均值为零和标准偏差为1的新的变量。这些新的变量是独立的线性组合,并保留了原始变量的最大可能方差,同时可以添加到用于进一步分析的工作数据文件中。(2)系数矩阵计算和显着性水平检验。 Kaiser–Meyer–Olkin (KMO)抽样充足检验和巴特利特的球形检验都被用来评估相关矩阵的适当性。(3)特征值,贡献率,累计贡献率和特征向量。(4)主成分的提取,所提取的主成分模型 和边坡稳定性评价模型的构造。
层次聚类
层次聚类就是形成数据点的递归的聚类:一个分为两个集群,其中每一个本身都是分层聚类的。它可以被用来评估植物群落受化学和物理系统影响的环境压力之间的关系(Lipkovich2008)。标准化的变量是基于Pearson相关性被分层聚类的。聚类的结果是根据它们的相对相关性得到的。
结果
相关性分析
基于标准化的变量测定147个样本的相关矩阵。在进行主成分分析之前,先进行巴特利特的球形试验和KMO抽样充足试验,以证明进行PCA分析的适当性(Sousa 2007)。巴特利特的球形检验结果表明相关矩阵是在一个适当的水平,也就是显著性水平Plt;0.001时进行主成分分析的。KMO试验提供0和1之间的值。对于主成分分析来说,KMO中小的值表明变量的因子分析可能是不适当的,而值高于0.5则是令人满意的(Norusis1990)。在本文中,KMO检验值是0.726,表示该样品足以进行主成分分析。两种试验方法都说明了主成分分析是适当的。由表1可以看出,许多标准化的变量彼此之间都是相对较好相关的。观察正相关性和负相关性,可以看出土壤深度和土壤类型之间的相关系数是最大的,为0.912。
表1:标准化变量的相关系数
主成分分析
用9个标准化变量之间的相关矩阵进行主成分分析,这一过程,虽然类似于因子分析,但是并没有因子分析的因素不确定性。在PCA的最常见的终止规则是基于特征值的平均值gt;1.0(the Kaiser-Guttman criterion;Guttman 1954;Cliff 1988;Jackson1993)。根据规则,提取数据中占了75.552%标准化方差,且特征值gt;1.00的前4个主成分。第一主成分的特征值是2.782,它解释了30.914%的标准化方差,说明了岩石类型,风化程度,土壤类型和土壤深度是主要的贡献变量。第二主成分的特征值是1.851,说明纬度和经度是主要因素,贡献率为20.563%。第三主成分的特征值为1.111,说明高度的贡献率12.349%。坡向和坡度在第四主成分中都是重要的变量,特征值是1.055,贡献率为11.726%。前四个特征值gt;1.00的主成分,包罗了所有的标准化变量,这说明了主成分分析对岩质边坡稳定性分析是有效的。根据标准化变量的分量特征值,可以有趣地命名前4个主成分:第一主成分命名为母质因素,第二和第三主成分命名为地域因素,第四主成分命名为地形因素。
基于主成分的定义,可以得到9个标准化变量的四个有关主成分特征向量的线性组合(表2)。根据标准化变量的系数计算主成分的特征向量,因此,这四个提取的主成分的z得分函数如下:
其中,Z所示的标准化的变量,x表示变量,i表示变量的顺序。
考虑前四个主成分的特征值,权重计算如下:0.4092,0.2722,0.1634和0.1552。边坡稳定性评价模型表示为:
层次聚类
基于标准化变量的Pearson相关性,层次聚类可以通过 SPSS16.0进行分析。根据9个标准化变量的层次聚类分析,观察Pearson相关性,可以得到四个正相关,三个负相关。岩石类型和土壤类型之间的关系是最大的正相关,为0.680,而坡度和坡向表现出最大的负相关,为-0.557。9个标准化变量可以根据重新调整距离17.5-20.0分为三类:地理位置,母质和地形因素。第一类包括四个变量:坡向,风化程度,土壤类型,土壤深度。第二类包括两个变量:坡度和岩石类型。第三类包括海拔,纬度和经度。图2详细表示了用完全连锁的层次聚类得到的树状图。
讨论和结论
主成分分析已经被证明是一个非常流行的技术降维方法(Tipping and Bishop 1999)。作为一种分析方法应用到岩质边坡稳定性分析中,PCA提供了类似的功能:在岩质边坡稳定性分析中,它可以以一种合适的方式确定可以代表复杂因素信息的有限数量的因素。两种不同的方法被用来分析标准化数据的相关性。主成分分析法提取四个主成分。第一主成分的组成部分是岩石类型,土壤类型,风化程度,以及土壤深度。其中,土壤深度是最重要的因素,累计贡献率为30.914%,这也说明了母质因素影响了边坡稳定性。在第二和第三主成分中,纬度,经度和高度是地理位置的重要变量。第四个主成分揭示了地形因素,即坡度和坡向。形成的4个主成分属于三个因素:材料因素,地理因素和地形因素。可以得到以下结论:母质因素是影响岩质边坡稳定性的最重要的组成部分,地理位置是第二重要因素。
在主成分分析和层次聚类分析中存在一些差异。在主成分分析中,第一主成分表明四个因素形成最大的贡献率:岩石类型,风化程度,土壤类型,土壤深度。但在层次聚类中,集群只包含三个变量:风化程度,土壤类型,土壤深度。在层次聚类分析中,高度,纬度,经度属于相同的群集,而在PCA中,他们被分为两个主成分。造成这些差异的原因可以通过两种方法的数据类型进行解释。主成分分析中使用的是相关系数的绝对值,而层次聚类中使用的是向量。两个结果都可以将影响边坡稳定性的环境因素分为三类,其中层次聚类提供了定性因素,而PCA提供了影响岩质边坡稳定性的定性和定量因素。
参考文献
Annoni P (2007) Different ranking methods: potentialities and pitfalls for the case of European opinion poll. Environ Ecol Stat 14:453–471
Calder AJ, Burton AM, Andrew PM et al (2001) A principal component analysis of facial expressions. Vis Res 41:1179–1208
Cliff N (1988) The eigenvalues-greater-than-one rule and the reliability of components. Psychol Bull 103:276–279
Doty RL, Smith R, Mckeown DA et al (1994) Tests of human olfactory function: principal components analysis suggests that most measure a common source of variance. Percept Psychophys56(6):701–707
Fievez V, Vlaeminck B, Dhanoa MS et al (2003) Use of principal component analysis to investigate the origin of heptadecenoic and conjugated linoleic acids in milk. J Dairy Sci 86:4047–4053
Guo H, Wang T, Louie PKK (2004) Source apportionment of ambient non-methane hydrocarbons in Hong Kong: application of a principal component analysis/absolute principal component scores (PCA/APCS) receptor model. Environ Pollut 129:489–498
Guttman L (1954) Some necessary conditions for common fac
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[286789],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。