Predicting construction cost using multiple regression
techniques
David J Lowe, Lecturer, The Manchester Centre for Civil and Construction Engineering, Project Management Division, UMIST, UK
Margaret W Emsley, Lecturer, The Manchester Centre for Civil and Construction Engineering, Project Management Division, UMIST, UK
Anthony Harding, Halcrow Group Ltd, Hammersmith, London
Abstract
This paper describes the development of linear regression models to predict the construction cost of buildings, based on 286 sets of data collected in the United Kingdom. The same data have been used to develop neural network model and one purpose of developing the regression models was to provide a benchmark against which the neural networks could be compared
Raw cost is rejected as a suitable dependent variable and models are developed for three alternatives – cost/m2, log of cost and log of cost/m2. Both forward and backward stepwise regression analyses were performed to produce a total of six models.
Forty-one independent (predictor) variables were identified and classified either as project strategic, site related or design related. Five variables appeared in each of the six models: GIFA, function, duration, mechanical installations and piling, suggesting that they are the key linear cost drivers in the data.
The best regression model is the log of cost backward model which gives an R2 of 0.661 and a MAPE of 19.3%. The best neural network model is one which uses all 41 variables and a voting system using 100 networks; this gives an R2 value of 0.789 and a MAPE of 16.6%. However, the models developed using both techniques compare favourably with past research which has shown that traditional methods of cost estimation have values of MAPE typically in the order of 25%.
Key words: Forecasting, Cost estimating, Construction industry, Regression analysis
Introduction
Construction clients require early and accurate cost advice, prior to site acquisition and the commitment to build, to enable them to assess the feasibility of the proposed project, therefore a key task, performed by construction contract price forecasters (usually a Quantity Surveyor in the UK).
The objective of this feasibility (early) stage construction contract price forecast is to generate an indication of a projectrsquo;s likely construction costs (Ashworth, 1988) to assist the client in setting a budget, predicting the tender price and managing the design so that it meets the budget. When preparing a feasibility forecast, the forecaster usually attempts to predict the winning tender, therefore, the forecast is primarily a forecast of the contractors forecast, and is made without reference to the contractors data and with many inherent uncertainties relating to the lack of a detailed design and possibly even a site (Raftery, 1994).
The choice of forecasting technique is determined by its ease of operation, familiarity, speed and a satisfactory degree of accuracy (Ashworth, 1988), in conjunction with the availability of design information. Skitmore and Patchell (1990) provide a comprehensive taxonomy of construction contract price forecasting techniques.Fortune and Lees (1996) concluded that the traditional rather than the newer techniques of early cost advice are still more popular with practitioners. However, they established that as the size of the organisation increased the more likely that organisation would be to use alternative costing techniques (Fortune and Lees 1994).
Several studies have found that clients are generally dissatisfied with the initial cost
advice provided by their construction professionals (RICS, 1984; Ellis and Turner,
1986; and Procter et al. 1993). Further, the RICS (1991) concluded that there is a
need to provide more accurate and robust forecasts of construction costs. While it is
widely held that a perfect estimate is not possible and even the best possible estimate
will always contain a number of key risks, the goal of the forecaster is a practicable
level of accuracy (Smith, 1995). Ashworth and Skitmore (1983) maintain that a vital
consideration with any method of estimating is the accuracy by which anticipated
costs can be predicted. Further, '... any improvement in prediction will be welcomed
because existing methods are poor when judged by this criterion'.
Both Ashworth and Skitmores (1983) and Ogunlana and Thorpe (1987) conclude that
'... a suitable accuracy of forecasting in the early stages would be of the order of 15%
to 20% cv, improving perhaps to around 13% to 18% cv at detailed design stage
immediately prior to receiving tenders'. Although, Birnie (1993) concluded that the
quantity surveyors cost prediction ability may not be as good as they believed it to be.
Regression analysis and neural networks are two of the modelling techniques,
identified by Newton (1991), which have been used to develop models to estimate the cost of buildings. However, for the most part, these models rely on the use of historic
(but recent) cost data. In the United Kingdom, the Building Cost Information Service
(BCIS) provides details of construction projects and their associated tender prices.
While cost advisors may use these data to advise on the cost of a building, based on
the cost of a similar comparable project adjusted to reflect any differences, this does
not enable an
剩余内容已隐藏,支付完成后下载完整资料
译文
使用多元回归预测建筑成本技术
英国UMIST项目管理课曼彻斯特土木与建筑工程中心讲师DavidJLowe
英国UMIST项目管理处曼彻斯特民政和建筑工程中心讲师玛格丽特·艾斯利
安东尼·哈丁,哈尔克斯集团有限公司,哈默史密斯,伦敦
摘要
本文介绍了基于英国收集的286套建筑数据,建立线性回归模型预测建筑成本的方法。本文使用相同的数据来开发神经网络模型,并且开发回归模型的一个目的是提供可以比较的神经网络的基准数据。
模型是为三种替代方案开发的,三种方案为成本/m2,成本日志和成本/平方米。进行前向和后向逐步回归分析以产生总共六个模型。确定了41个独立(预测变量)变量,并将其分类为项目战略,项目站点和项目设计。六个模型中都有五个变量:GIFA,功能,持续时间,机械装置和打桩,它们是数据中的关键线性成本驱动因素。最佳回归模型是成本向后模型的对数,其R2为0.661,MAPE为19.3%。最好的神经网络模型是使用所有41个变量和使用100个网络的投票系统;这给出R2值为0.789,MAPE为16.6%。然而,使用这两种技术开发的模型与以前的研究相比较,这表明传统的成本估算方法的MAPE值通常在25%左右。
关键词:预测,成本估算,建筑业,回归分析
介绍
建筑客户需要准确的成本咨询,在现场采购和承诺建设之前,使他们能够评估拟建项目的可行性,是建筑合同价格预测员(通常是英国的工程量测工程师)执行的关键任务。
这个可行性(早期)阶段施工合同价格预测的目的是产生项目可能的建筑成本的指示(Ashworth,1988),以协助客户设定预算,预测投标价格和管理设计,使其达到预算的功能。在准备可行性预测时,预报员通常会尝试预测中标,因此,预测主要是对承包商预测的预测,而不是参考承包商的数据,并且有许多内在的不确定性与缺乏详细的设计,甚至可能只是一个网站(Raftery,1994)。
预测技术的选择由其易于操作,熟悉度,速度和令人满意的准确度决定(Ashworth,1988)以及设计信息的可用性。Skitmore和Patchell(1990)提供了建筑合同价格预测技术的综合分类法.Fortune和Lees(1996)得出结论,早期的成本咨询虽不是较新的技术仍然受到实践者的欢迎。但是,他们认为,随着组织规模的增加,组织越有可能使用替代成本核算技术(“财富与利益1994”)。
一些研究发现,客户一般不满意初始成本建筑专业人士提供的建议(RICS,1984;Ellis和Turner,1986年和Procter等人1993)。此外,RICS(1991)得出结论认为有一个需要提供更准确和更强大的建筑成本预测。虽然广泛地认为,完全估计正确是不可能的,甚至最好的估计将始终包含一些关键风险,但是预报员的目标是切实可行的准确度(Smith,1995)。Ashworth和Skitmore(1983)认为这是至关重要的任何估算方法的考虑是预期的准确性成本可以预测。此外,“...预测的任何改进将受到欢迎,因为现在的方法在通过这个标准判断的时候很差”。Ashworth和Skitmore(1983)和Ogunlana和Thorpe(1987)都得出结论“...早期预测的合适准确度将在15%左右到20%的电视,在细节设计阶段可能提高到13%至18%在接受投标之前,“Birnie(1993)得出结论数量测量师的成本预测能力可能不如他们认为的那么好。
回归分析和神经网络是两种建模技术,由牛顿(1991)确定,已被用于开发模型来估计建筑物的成本。然而,这些模式大多数依赖于使用历史的成本数据。在英国,建筑成本信息服务(BCIS)提供建设项目及其相关投标价格的详细信息。虽然成本顾问可以使用这些数据来建议建筑物的成本,类似的可比项目的成本被调整以反映任何差异,这样做不能使任何关于成本和存在之间关系的一般真相重要的预测变量或提供任何可以预测或预测的模型施工费用。此外,这些数据反映了投标的最低价格,而不是最终费用给客户。
提供使用回归分析作为预测工具的早期实例McCaffer(1975)和McCaffer等(1984),而最近的一个应用Trost和Oberlender(2003)提供了早期成本估算的技术。进一步回顾回归分析对建筑价格的应用Skitmore和Patchell(1990)提出了预测。同样,Elhag和Boussabaine(2001;2002)使用人工神经网络模拟投标价格估算,而Emsley等(2002)应用神经网络方法预测总建筑成本。
研究目标
研究的初步动力源于可用数据的缺乏。希望发现有关使用不同采购的相关成本的可靠信息路线,以施工的最终成本为准。然而,很明显,采购路线的类型不能与其他成本隔离开来影响建筑成本的重要变量。(Harding等,1999)。
本文的主要目的是描述回归成本的发展模型来预测建筑物的建筑成本(最终帐户)。虽然这样模型本身是有价值的,开发模型可以实现另外两个目的:
bull;它为神经网络模型提供了一个有用的基准测量;
bull;它有助于识别显示强线性的变量与成本的关系。
开发的模型使用从英国286栋建筑收集的数据项目。除了开发回归模型,数据也被用于开发神经网络模型(Emsleyetal。,2002)和简要比较做出两种建模技术的表现。
第一,输入和输出变量。收集的数据分为独立输入变量和依赖关系输出变量(Emsleyetal。,2002)。确定了两个独立变量-建设成本(最终帐户)和客户费用(包括专业费用和内部费用),其可以两两组合以给予客户的总成本。但是,本文描述的回归模型仅基于建设成本。广泛的文献综述发现了许多预测变量(输入)。这些最终被缩减为41个变量,可以知道这些变量早期估计阶段(模型旨在使用的阶段)的变量分类如表1所示,通过使用BCIS指数来调整地理位置,将所有数据集(项目)调整到公共位置和基准日期的代价,外部工程和拆迁等活动已从最终帐户中删除因为认为这些活动是非常难以建模的,它们对于特定站点是唯一的。
第二,潜在模型。过去,线性回归分析已经通过使用原始成本进行了因变量。然而,这里隐含着许多假设选择必须解决的变量。1、与因变量(成本)相关的误差的标准偏差在整个领域保持不变。2、这个错误是正常分布的。3.任何变量的影响总是以固定成本增加或减少,不论项目大小或类型。
这些变量中有两个是可以接受的。第一个是误差的标准偏差保持不变。那就是说一个小型项目的成本可以与大型项目的金额相同。这个不太可能是这种情况,更有可能与规模成正比或建筑物的成本。因为回归模型最小化了平方错误,它本来就偏向最大限度地减少错误项目。因此,不太可能是一个很好的预测因素的小项目成本。考虑到数据项目的成本收集的费用在36,000英镑到1580万英镑之间,错误在成本上的影响最大的项目比最小的几个数量级项目,所以效果会明显。第二个假设是任何变量的影响表示为固定成本变化。例如,地板的规格装修成为更高的成本之一,建筑物的成本将会有所提高上升。然而,小型建筑的成本预计不会上升作为大型建筑物的成本,并且成本更可能上升无论是建筑面积的一部分还是建筑成本的一部分。
这两个假设引起了关于模型产生的意义的问题,使用原始成本作为线性回归模型的预测因子,提出了可能的模型-预测成本的自然对数成本/m^2和成本/m^2的自然对数。
为了解决建筑成本差异巨大的问题,常见的解决方案是对成本的日志进行建模。这假定日志成本通常分布在平均值周围,对应于回归表面。在实际成本方面,这意味着预计成本变动与项目的预期成本成正比。对应于成本对数的正态分布,是平均值的项目成本,其标准偏差是项目成本的固定比例。当正常分配被转换为任何项目的原始成本时,它是一个轻微的正态分布,使峰值的概率密度功能略小于平均值。这个概率密度功能可能被认为可以更好的代表项目成本,真实的概率分布一般有更多的项目成本的余地远远高于预期,而不是低得多。该模型的另一个属性是它假定任何变量内的变化,该模型将导致成本的相应变化。
每m^2的成本是数量测量师最常使用的成本预测因子。这样做的原因是它提供了基本上与建筑尺寸无关的成本衡量标准。如果这个值被用在回归模型中,那么它假定项目成本的任何变化与建筑物的大小成正比。这似乎是一个不切实际的解决方案,因为具有较高规格的项目可能预期会显示相应较高的成本变化。然而,它具有去除理解的线性部分的附加优点GIFA与项目成本之间的关系。这应该允许建模专注于对项目成本的其他较少的理解影响。该模型还假设变量中的任何变化将产生固定的变化模型的成本/m^2。换句话说,与变量相关的成本变化与建筑物的尺寸成正比。成本/m^2的对数与变化的成本对数相同项目成本与预期成本成正比。但是,它也提供了一个变量与成本和大小之间没有线性关系方式作为成本/m^2输出。虽然这与回归模型几乎没有区别,如下文所示,它可能在神经网络建模中是有用的。GIFA的日志与成本/m^2的对数的关系远小于日志的成本;这可能会阻止神经网络被淹没,学习一种比任何其他关系更重要的关系。
拒绝原始成本作为预测因素。虽然提出不使用原始成本的论据是有效的,通过比较可以进一步证明原始成本的不合适性,这是一个简单的向前逐步回归到其他三个变量的结果。然而,重要的是建立一种代表模型预测能力的比较方法。比较模型的最简单的方法是比较每个模型的R^2值,每个模型的自身的预测变量。然而,这将是无效的,这可以通过一个简单的例子来证明。考虑一个回归模型,其中通过将总内部建筑面积g乘以常数b,数据集中所有n个项目的平均成本m^2来预测成本y。
为了创建一个预测回归模型,尝试了两种方法。首先是一个简单的向前逐步回归建模技术。这涉及到一次排除变量。在每个步骤中的所有变量检查其模型的T值,并从模型中拒绝T的意义大于0.1。没有排除任何变量该模型,每个变量不在模型中将具有的T的值被评估。值最大的变量被添加到该模型的意义小于0.05。前向逐步回归的一个问题是,一个变量很好地相关在这些变量之前可能包含一些成本显着的变量,因为它似乎封装了这些变量。如果这个封装变量有一个变量本身的意义要高于个体变量,那么这个变量就会变包括在第一。当其他变量被考虑添加到模型中时,一些其中包含的信息将已经存在于模型中使它们看起来不如他们真正的重要。
绕过这个问题的一种可能办法是执行向后建模技术。这种技术从包含所有这些的回归模型开始变量。对于每个变量评估T的值,并且从模型中删除具有最低值的变量,前提是T的值在95%的置信水平。当所有变量保留在该进程中时,进程停止模型具有在95%置信水平上显着的T值。因此,进行向前和向后建模。三种型号是为每个方法生成的,以预测成本/m^2,成本/m^2的对数和成本的对数。
一共开发了6个回归模型。模型中变量的数量差异很大。在前进中使用的最小变量数为8成本模型的逐步日志。最大的是14,反向型号。在整个模型中共有19个不同的变量被使用。然而,有两个对数的变量形式和未构成形式用于不同的模型:功能和持续时间。变量如表3所示。它们按照它们的次数排列出现在模型中,然后通过T的平均值包含在这些模型中。请注意,功能和持续时间被分解为其日志和原始值允许比较两个表示。还要注意这些变量只出现在一个或两个模型中,一起排列成两个出现在成本倒退模型的两个日志中。这些模型实际上是一样的,是将要讨论的。在整体上,向后选择技术产生了具有更多变量的模型比前进技术。成本模型的成本/m^2和两个对数分别为11和14。变量。这意味着通过使用向后选择是可能的提取比使用前向选择更重要的变量。一个可能的对此的解释是,有一些变数,虽然不一定会对成本本身产生重大影响,但是与数字有很好的相关性的成本显着变量。因此,如果包含该变量,则是可能的一些其他成本显着变量的影响也是隐含的通过包含这个变量来考虑。这种效应可以通过考虑建筑物的表示来证明函数变量。建筑功能与许多有关的变量相关建筑物的内部规格,如表4所示
建筑功能隐含地规定了内部规范的一般水平,也可以从表中的相关系数可以看出。建筑功能也可以包含其他信息,不会编入其他成本显着的变量。建筑功能与成本/m^2和成本对数非常相关。这个意味着将被包括在正向选择模型中。因此,当它到来包括水准或机械和电气规范,这些变量中包含的一些数据将被隐式编码建筑函数变量。这将减少这些的明显影响变量,因此它们的意义。建筑功能可能是最多的这种类型的变量的极端例子,但是可能存在其他变量,并且在进行建模时应该注意,以尽可能地确保这种效果不发生。
所有6个模型中都有五个变量:GIFS,功能,持续时间,机械安装和打桩。这表明这些是关键的线性成本驱动因素数据。还有四个变量出现5次:内墙饰面,框架,现场访问和保护装置。保护装置被省略成本前瞻性选择模型的对数,所有其他成本从成本/m^2中省略向后选择模型。事实上,这些变量,否则似乎是非常重要,从单一模式中省略值得更多关注。从成本/m^2的向后选择模型中省略了三个变量。但是,这个模型还包括其他四个不包括在其中的变量其他型号,即:子结构,特殊安装,外墙和地板完成这个包含有两种可能的解释。第一个是这些变量影响到建筑物尺寸的一部分,并与之相关高度与前向回归模型中的一些变量。事实上这些变量已被包括在前向搜索模型中这些变量的意义。相反的解释是相关性包括的变量和排除的三个变量之间,以及哪些目前在其他车型中,已经使他们被拒绝。产生一般业绩措施和意义变量,也可以测试由依次表示的预测变量的值变量。初步确定序数变量的值确定他们所代表的解决方案通常需要多少费用其他。例如,为了尝试,评估了不同楼梯的成本确定不同楼梯解决方案的相对成本。然后将其与方差分析,看是否项目成本差异不同的楼梯解决方案提出了相同的顺序。但是,这个价值是受制于其他变量与楼梯溶液相关的可能影响,所以结果不能取决于。也可以对这些类别的顺序作出判断变量使用回归模型。如果假设模型包含所有的成本的显着影响,然后变量的最合适的顺序(即最能表达每个类别对成本的相对影响的一个)可以是通过找到产生最高T值以包含在内
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[612988],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。