英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
外文翻译
题 目 基于多元统计分析的城市水质评价
基于多元统计分析的城市水质评价
Petr Praus`
摘要:本文利用多元统计方法对数据集进行分析处理来监控饮用水质量,从而评价城市水质。首先,利用主成分分析方法对给定的饮用水样本数据做降维处理,将18个生化和微生物的原始参数用6个贡献率达到83%的主成分来解释,这6个主成分分别代表无机盐、硝酸盐/pH值、铁、氯、亚硝酸盐/铵以及异养细菌。用主成分的散点图和聚类分析方法来研究第一和第二主成分的特点。样本饮用水来源于地下和地表水,根据样本来源将变量聚成三个集群。原始数据的因子分析和层次聚类结果证实了主成分分析结果。
关键词:水质;饮用水;主成分分析;多元分析方法;数据挖掘
1引言
为了给人们提供高质量和健康的饮用水以满足所有的法律法规,对普通饮用水的监测是至关重要的。饮用水分布系统通常在许多定期采集的样本点上被监测,然后按照监测计划在实验室分析样本,采样频率和监测参数的数量由政府条例、水技术专家的要求和区域卫生办公室提供,水质评价应基于物理、化学和生物来进行统计分析得出结果。
水质主要是由一些在特定时间、特定地点的代表水的成分的变量(参数)来描述的,真正的水文数据大多是有噪声的,这意味着他们不是普通的正态分布,而是存在共线的或者是自相关的,并包含异常值或错误等。这些数据集利用已被挖掘的水成分信息创建了一个维空间,为此,我们必须使用聚类分析,主成分分析,因子分析和判别分析这些多元统计方法。地表水的质量评估(Zeng and Rasmussen, 2005;Simeonov et al.,2003; Wunderlin et al.,2001),地下水(Reghunath et al.,2002),和环境研究(Ceballos et al.,1998; Lambarkis et al, 2004; Praus, 2005; Bartolomeo et all.,2004)在多分组技术文献中被描述。
主成分分析是用于数据聚类和发现变量间隐藏关系的方法,不像其他的统计方法(比如判别分析),主成分分析是一个不需要分布式和不相关变量的健壮的技术。本文的目的是在定期监测的过程中利用主成分分析来确定减少参数的数量,同时识别出饮用水质量的基本特征。因子分析和聚类分析是用来确定主成分分析的结果的。
2材料和方法
2.1水质量数据
在一年半的时间里,根据监测计划从北摩拉维亚,捷克共和国的城市水网络中提取的126个饮用水样本决定了18个参数包括化学,物理,微生物的结果。私人和商业建筑的自来水龙头被选为主要的采样地点,期间,每个采样点至少被采样两次。水质分析包括样本的收集和保存,这些都是根据国际标准化的组织和方法进行的。在某种情况下,当存在替代方法的时候,在这项研究中所使用的选择的缩写:视觉光谱法,原子吸收光谱法,用乙二胺四乙酸EDTA滴定法,确定的参数是pH、铵(VIS),硝酸盐(VIS),亚硝酸盐(VIS),颜色(VIS),浊度(VIS)、温度、钙(EDTA)、铁(AAS)、电导率、硬度(EDTA)、碱度、酸度、高锰酸钾化学需氧量、总的和游离氯(VIS)。
从微生物参数是非零的,即低温(20℃培养)和嗜温菌(37℃培养)进行调查,然而,这些细菌菌落形成单位(CFU-毫升/毫升)远远低于饮用水水质标准。大肠杆菌和粪大肠菌群一点都没有监测到。
2.2主成分分析
主成分分析通常用于去除引起噪声的数据(Jolliffe, 2002).主成分分析方法在一个新的坐标系中寻找新的抽象的能够表示大部分数据信息的正交主成分(特征向量)。每个主成分是一个原始变量的线性组合,并描述了不同的变量信息:
其中,和分别是原始变量和成分的权重。主成分权重是用来衡量变量和主成分之间的相关关系的,最大的或者第一主成分是原始变量的最大变化方向的导向,并经过数据中心;第二主成分位于下一个最大的变化方向,并经过该数据的中心,与第一主成分正交;第三主成分指向下一个最大的差异,经过数据中心并与第一、第二主成分正交,以此类推。
经典主成分分析是基于特征值分解或实数据矩阵的奇异值分解的协方差矩阵的分解或相关矩阵的分解。特征值或奇异值表明所观测到的变量(参数)之间的变化。
2.3因子分析
在因子分析中,每个变量都可以表示为潜在公共因子和一个特定因子的线性组合:
其中,和分别是普通因子和特殊(错误)的因子,和是它们的因子负荷。因子分析将相关矩阵分成两个部分:一个公共因子矩阵和一个特定因子矩阵。主成分分析和因子分析的主要区别在于主成分分析与相关矩阵中所表示的总差异有关,而因子分析与公共因子部分存在相关关系。此外,在做因子分析之前还必须清楚一些定义,因子分析的目的不仅是像主成分分析那样减少数据的维数,而且也对公共因子做出了解释。因子计算的方法包括因子分析的详细解释在文献中都是有描述的,例如(马林诺夫斯基,1980;马林诺夫斯基,Howery, 1991)。
2.4聚类分析
聚类分析包含了一些不同组织对象(观测值)的方法,称为不解释的聚类。同一类别中的对象是相似的,而在不同类别中的对象是有差异的。这一探索性的方法可以用来发现观测值或变量的数据结构,并将其排列成一个树形图,通常称为树状图。聚类分析所使用的方法、运算法则以及相似或有差异的方法在其他文献中有描述(埃弗里特,2001)。在这项研究中,我们使用了常用的平均值法和Ward聚类方法,欧氏距离被用来作为相似性度量。
2.5多元计算
原始数据矩阵()是在MS Excel 2000中进行准备和预处理的,从饮用水的参数中构建了数据矩阵的行向量,数据集中并未发现存在缺失值,在检测限值以下的观测值都被等于一半限值的值所替换(Zeng and Rasmussen,2005),因为检测限值的分析方法不是绝对严格定义的值,其中的一些值在数据采集期间会发生改变。主成分分析、因子分析、聚类分析和其他的统计计算都是由软件包STATGRAPHIC Plus 5.0(Statistical Graphics Corp.,USA)和QCExpert(Trilobyte, Czech Republic)执行的。在处理分析之前,为了避免不同数量级的变量导致错误分类,需要先将数据进行标准化处理,因此,原始数据以平均值为中心,按比例的标准差:。
3结果和讨论
3.1饮用水样本的主成分分析
在城市供水系统的饮用水质量定期筛选得出的饮用水样本()由16个化学和物理变量和2个微生物参数(表1),利用主成分分析方法,根据特征值大于或等于1的Kaiser准则(1960)和Cattel碎石图(1966),得到6个主成分,共解释原始变量83%的信息,碎石图显示的作为主成分个数的函数的特征值从大到小排序。在第六主成分的曲线开始呈现向下弯曲的趋势时(图1),其他成分可以省略,成分的权重、特征值和方差在表2中排列。
图表 1 碎石图的特征值
表格 1 饮用水样本的统计值汇总
参数 |
中位数 |
中位标准差 |
最小值 |
最大值 |
偏度 |
峰度 |
酸度(毫摩尔/升) |
0.1 |
0 |
0.05 |
0.75 |
15.0484 |
22.9599 |
碱度(毫摩尔/升) |
1.1 |
0.04 |
0.75 |
3.40 |
6.1111 |
1.6253 |
氨(毫克/升) |
0.006 |
0 |
0.006 |
0.054 |
17.0816 |
34.8977 |
钙(毫克/升) |
30.1 |
1.63 |
21.2 |
120 |
5.2919 |
0.6279 |
游离氯(毫克/升) |
0.05 |
0.005 |
0.020 |
0.26 |
6.0272 |
2.3748 |
总和氯(毫克/升) |
0.15 |
0.010 |
0.02 |
0.35 |
3.5110 |
0.4462 |
高锰酸钾化学需氧量(毫克/升) |
0.77 |
0.041 |
0.30 |
1.9 |
2.2432 |
1.1325 |
颜色(毫克/升) |
7.3 |
0.70 |
1.40 |
20.0 |
2.7912 |
-0.5130 |
电导率(/厘米) |
22.9 |
1.58 |
18.8 |
74.8 |
4.3275 |
-1.2249 |
铁(毫克/升) |
0.12 |
0.015 |
0.02 |
0.44 |
3.9541 |
0.8788 |
硬度(毫摩尔/升) |
1.0 |
0.06 |
0.7 |
3.5 |
4.5301 |
-0.9926 |
嗜温菌(CFU/毫升) |
0 |
0.3 |
0 |
46 |
20.8225 |
49.9124 |
硝酸盐(毫克/升) |
7.68 |
0.224 |
1.71 |
42.3 |
11.4585 |
12.9512 |
亚硝酸盐(毫克/升) |
0.002 |
0 |
0.002 |
0.008 |
12.2134 |
17.7015 |
pH值 |
剩余内容已隐藏,支付完成后下载完整资料 资料编号:[31107],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。