英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
预测学报,31,391-400(2012)
2011年3月9日于wileyonlinelibrary.com在线发表
DOI:10.1002 / for.1220
英国旅游收入时间序列数据的信号提取与预测:
一种奇异频谱分析方法
CHRISTINA BENEKI,1* BRUNO EECKELS2 AND
COSTAS LEON3
- 爱奥尼亚群岛科技教育机构工业管理部,凯菲利尼亚,希腊
- Les Roches-Gruyegrave;re,应用科学大学,瑞士
- DCT大学中心,维茨诺,瑞士
摘要
本文提出并应用奇异频谱分析方法(SSA),即一种相对较新的非参数和数据驱动的信号提取方法(趋势、季节性和商业周期),对英国旅游收入进行预测预测分析。研究结果表明,SSA在均方根误差、平均绝对误差和平均绝对百分比误差预测标准方面优于SARIMA模型和时变参数状态空间模型。
关键词:奇异谱分析; 奇异值分解; 经济周期分解; 旅游收入; 信号提取; 预测
引言
信号提取和预测,是国家发展旅游业、制定旅游政策的重要依据。对时间序列数据进行信号和噪声分解,有助于更好地理解旅游业的各个环节特点,特别是基于宏观经济环境的关系更准确地预测旅游需求。我们回顾相关文献,可以认识到,迄今为止,旅游研究主要以“理论”(如:季节自回归综合滑动平均 - SARIMA建模)和理论公式(如:协整和误差校正)为主。相比频域方法,绝大多数这方面的研究运用了时域分析方法。例如,宋和李(2008)回顾了2000年以来发表的121项研究,重点研究旅游需求的建模,发现除了季节性模型的论文,只有一位作者(Coshall, 2000)使用了频域分析。Coshall在研究中发现,从英国到法国、比利时和荷兰,旅客流的循环依赖汇率周期,而不是国内生产总值(GDP)周期。这篇回顾性的论文还指出,非参数化的数据驱动方法在旅游研究运用较少,而在其他科学和工程学科中应用相当普遍。
奇异频谱分析(SSA)是一种相对较新的时间序列分析方法,并结合了统计学和概率论、动力系统和信号处理等各个领域的研究成果。它基于时间序列的光谱分解(Karhunen, 1946;Loegrave;ve, 1945, 1978)和Mantilde;eacute;(1981)和Takens(1981)的嵌入定理。SSA不属于统计谱方法,但它构成了统计谱分析发展中的一个阶段。因为其将时间序列(通过SSA)分解为了各种成分(包括周期或准周期),可能是因为受制于经典谱分析方法,这些组分预被认为通过SSA分析被分解成“更干净的信号”。
这种方法实际上可以在任何需要时间序列数据分析的领域中应用。因此,SSA迄今已在水文、地球物理、气候学、经济学、生物学、物理学和其他定量知识领域得以广泛应用。该方法尚处于早期发展阶段,在不久的将来会有更多的方法研究进展和实际应用。
SSA的中心概念是将时间序列分解成一组独立的分量,当它们被合成时,反映了时间序列的重要特征,即趋势、周期、振荡分量(例如季节效应和日效应,宏观经济中的经济周期)和白噪声。SSA属于非参数方法,即它是一种不基于模型和数据驱动的方法,不要求对数据生成过程、组合正式数学分析和视觉辅助进行假设。它的主要关键元素是它只取决于一个参数,即窗口长度,其能使SSA易于理解和相对“容易”地进行应用。
该方法需要解决的问题是:不同分辨率的趋势,平滑,降噪,季节分量的提取,具有幅度和频率调制的周期提取,时变幅度的周期性提取,复杂趋势和周期性,发现短结构和噪声时间序列,变异点检测,预测。
SSA方法是在20世纪80年代的美国和英国以SSA的名称被研究,在20世纪90年代的俄罗斯(圣彼得堡和莫斯科)以Caterpillar-SSA名称被研究。此后,出版了数百篇研究论文,其中大部分是在自然科学方面。例如,Broomhead和King(1986)将SSA应用于Lorenz(1963)吸引子(气象学)的重建。其他论文有Allen和Smith(1997),Vautard和Ghil(1989),Vautard et al.(1992),Ghil et al.(2002),Kondrashov和Ghil(2006),所有这些都是在地球物理学、地球物理学或大气科学中。Hassani(2007)在人口时间序列中,Sella(2008)在宏观经济学中。此外,在教科书一级,SSA的介绍是Elsner和Tsonis(1996),Golyandina等人提出了更为先进的研究方法(2001)。
在本文中,我们通过介绍和应用SSA来信号提取和预测英国旅游收入数据,为旅游经济学中的非参数方法进行研究,并将其预测性能与SARIMA模型和状态空间模型进行比较。据我们所知,这是SSA对旅游经济学的首次应用。在本文的其余部分中,我们研究了SSA(下一节)的方法学,它适用于英国旅游收入数据和实证结果(第三部分),我们在第四部分中总结了论文。通过SSA方法分析英国旅游收入时间序列已经使用卡特彼勒软件(www.gistatgroup.com)进行。
SSA方法学
本节包含用于提取信号的SSA算法及其预测的简要说明。 SSA包括两个主要阶段:分解和重建。反过来,分解阶段分为两个步骤:嵌入和奇异值分解。重建阶段还包括两个步骤:分组和对角平均(或汉考)。完成这些步骤后,可以进行预测。以下介绍如Golyandina等人(2001,Chs 1和2),Hassani(2007)和Hassani和Zhigljavsky(2008)。
阶段1:分解,步骤1:嵌入
设Ngt;2,考虑一维时间序列长度为N的正整数L(窗口长度),使得1lt;Llt;N,并将原始序列映射成L维滞后向量序列,按公式:
汉克尔矩阵大小被称为系列F的L轨迹矩阵(或简称为轨迹矩阵)。 在线性代数中,Hankel矩阵是矩阵,其中沿着对角线的所有元素平等,换句话说,轨迹矩阵是
注意,如果N和L是固定的,则尺寸的Hankel矩阵与长度N的时间序列之间存在一一对应关系。
阶段1:分解,步骤2:奇异值分解
SSA基于矩阵代数中已知的特殊变换作为奇异值分解SVD,轨迹矩阵的SVD是来自中一个关于X的分解。当时,。是矩阵的特征值以降序的数量级。 和是与这些对应的矩阵S的特征向量。如果我们定义,则可以写入轨迹矩阵的SVD
(1)
作为秩一正交矩阵的和。
其中是的正交特征向量(在SSA术语中,被称为经验正交函数),(在SSA术语中称为主成分)可以看作矩阵的特征向量。集合被称为矩阵X的i个性,是矩阵X和的奇异值,分别是X的左和右奇异向量。
SVD是有吸引力的,因为它确保了最优性。在所有矩阵的等级r lt;d之间,矩阵提供对轨迹矩阵X的最佳近似,使得最小。注意和,对于。所以我们可以考虑这个比例作为矩阵Xi在扩展(1)中对整个轨迹矩阵X的贡献。因此,中第一个r比的和是轨迹矩阵的最优近似的等级r对矩阵的贡献。
阶段2:重建,步骤1:分组
分组步骤对应于将基本矩阵分成若干组并对每组内的矩阵求和。 让是一组索引。然后将对应于组I的矩阵定义为。这些矩阵是为计算的。拓展(1)导致了以下的分解
(2)
选择集合的过程被称为特质分组。
阶段2:重建,步骤2:对角线平均
在某种意义上,最后一步是与第一步相反的,而且会将分组的分解位置(2)的每个矩阵变换成长度为N的新(重建)系列的系统。上述这个过程就是所谓的汉克化或对角平均。 如果用代表矩阵Z的元素,则通过对所有的求平均使得得到的时间序列的第k项,得到。 矩阵Z的汉克化的结果是汉克尔矩阵H Z,其是对应于作为对角线平均的结果获得的时间序列的轨迹矩阵(参见Golyandina等在2001年的描述)。值得注意的是,在相应尺寸的所有汉克尔矩阵中,矩阵HZ最接近Z(相对于矩阵范数)的意义上,汉克化是一个最佳过程(Golyandina等人,2001)。除此之外,汉克尔矩阵HZ还通过将对角线中的值与系列中的值相关联来定义该序列。其中对角线平均应用于矩阵产生系列。于是,序列被分解为m系列的和:
预测
SSA的预测可以应用于大致满足线性反演公式(LRF)的时间序列:
(3)
一些维数d与系数 SSA分解的一个重要特征是,如果原始时间序列F满足LRF(3),则对于任何N和L,在轨迹矩阵X的SVD中至多为零个奇异值。因此,即使窗口长度L和大于d,我们只需要最多d个矩阵来重建该系列就可以。现在定义原始系列对于特征向量,我们将向量的第一分量的向量表示为。设置,其中i是最后一个分量的特征向量 可以证明,任何向量的最后一个分量是第一个分量。的线性组合,的系数的向量可以表示为。最后得预测:
其中M是要预测的点数。
应用
数据
我们现在应用的SSA英国旅游收入的数据从1980年1月至2007年12月(每月数据),且参考了从海外访问英国的收入,收入以百万英镑计算。数据最初以当前价格计算,我们通过零售价格指数将其转换为不变价格,作为适合(本例)价格平减指数的近似值。旅游收入数据经季节性调整,从英国国家统计局获得(http://www.statistics.gov.uk)。相关时间序列编码为GMAK,观测总数为336。图1显示了旅游收入系列的日志。这个系列的长期变化趋势和季节性强劲的特征。然而,商业周期频率(1.5至8甚至10年)的任何经济波动的存在都不能在视觉上被读取。我们将在下面检查旅游收入系列中是否存在这些组成部分。
3图1.旅游收入(日志)
实际问题
在具有观察数据的SSA的实际应用中(与模拟数据相反,设计参数已知),应考虑一些因素。由于SSA依赖于一个唯一参数——窗口长度L ——其适当值的问题至关重要。L应足够大以充分捕获时间序列的动力学,但不大于N = 2。此外,如果已知在时间序列中存在任何周期性分量,则L应该与该周期成比例。如果时间序列中存在多个周期性分量,则L应覆盖所有这些。因此,L应该与我们分析的时间序列中存在的最高时期成正比。实际上,等于大约1/4或1/5的观测值的L的长度足以捕获该系列的所有动力学。此时,分解阶段的嵌入步骤已经完成。一旦确定了窗口长度,一些其他信息可能是有价值的,以便进行重构阶段的分组步骤。例如,在实践中,通过使具有奇异值的两个特征彼此接近来识别周期性分量(异常在频率为0.5,其显示具有锯齿奇异矢量的本征元素)。因此,L个奇异值与索引提供了重要的信息,在这种意义上,通过这种视觉辅助,人们可以很容易地分辨出奇异值的高低。由于每个奇异值i表示相应的Xi对总轨迹矩阵X的重要性,所以高奇异值意味着相应分量(趋势或周期性)的显着性。低奇异值意味着噪声而不是某种形式的有意义的信号。在时间序列中存在哪些周期分量的决定也可以通过在初始时间序列和/或主要分量中的频谱估计过程来辅助。特定频率下的高频谱密度意味着这些频率处的周期性分量。
估计
基于上述考虑,我们重构了初始系列如下。选择了窗口长度L为84。这是总观测值的1/4,同时涵盖所有已知的周期性,也可能涵盖商业周期分量。我们分析的目的是将初始时间序列分解成一个有意义的信号,即长期趋势、季节性和商业周期运动的周期性分量,以及不知情(白色)噪声。我们强调白噪声对彩色噪声的重要性,因为经济时间序列通常缺乏非常强的信噪比(如许多物理应用中的情况)。因此,我们认为,以色彩噪声呈现的任何内容丰富的内容都应转移到模型的系统部分,从而通过尽可能地分离模型的动态特性来更清楚地了解模型的动态特性,来自无信号噪声的信息信号。
长期趋势
根据奇异值的估计,我们现在进行分组。首先,这个系列的长期趋势是由第一个特征估计的。长期趋势见图2。
经济波动
第二,我们检查旅游收入时间序列中是否有任何商业周期组成部分。其他两个组成部分由特征4和7获得。它们是具有时变幅度的非周期性的复发运动,其可能被表征为经济波动,持续大约8年(96个月)。周期相似的时期,英国旅游收入时间序列397的奇异频谱分析:约有8年时间里,Leon和Eeckels(2009)发现了瑞士的旅游收入。业务周期分量如图3所示。
季节性成分
下一个分组是指季节性影响,每隔3到4到6到12个月。这些季节性成分已被2-3-3-5, 6,8-9,10-11,12-13,14-15,16-17,18-19,20
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[27304],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。