本科毕业设计(论文)
外文翻译
基于主成分分析与回归神经网络预测证券交易所股价——以卡萨布兰卡为例
作者: and
国籍:Morocco
出处:National school of applied sciences, Abdelmalek Essaadi University
中文译文:
摘要 :
时间序列分析是近年来引起研究者关注的一个非常重要领域。它代表了许多实际问题,其中之一就是对股票价格的预测。众所周知,回归神经网络是预测问题最常用的模型,因为它对时间序列预测提供了很好的效果。本文采用主成分分析法对卡萨布兰卡证券交易所上市29天的总市值进行预测,使其特征数由8个减少到6个。降维方法的应用提高了回归神经网络模型的精度,给出了一个较好的递归神经网络模型对股票价格的预测。
关键词:
回归神经网络;股价预测;主成分分析
1.介绍
时间序列预测代表了许多直接或间接影响人类生活的真实挑战,比如语言处理、预测股票价格或天气预报。解决任何时间序列问题的基本步骤都是收集并选择正确的变量,然后选择最能给出最佳精度的模型。输入变量的类型通常是基本价格数据、经济数据和技术分析。研究人员使用输入的数量从1个输入到60个输入不等。使用一个输入变量来预测索引在标准普尔500指数、DAX指数和FTSE指数近3000天(基本价格数据)中,使用8个输入来预测标准普尔500指数365天指数(基本价格数据)。使用四个输入变量(经济变量),预测股价PETR4为11天使用两种不同类型的输入:7个技术分析变量和8个经济变量。
在选择了输入变量之后,选择一种方法来减少它们是至关重要的。为减少功能的数量做出了一些贡献。Zhong和Enke预测了标普500指数378天内的移动,初始特征为60;他们使用三种方法来最小化输入数量:主成分分析(PCA)、模糊鲁棒主成分分析(FRPCA)和基于核的主成分分析(KPCA),他们将输入变量从60个(金融和经济变量)减少到11个。Kazem等人应用逐步回归分析减少输入数量。Dai等人将非线性与相结合利用独立成分分析和神经网络对亚洲股市指数进行预测非线性独立分量分析(NLICA)是将原始数据转化为独立分量的一种方法用作输入特性。Maaten等人的工作比较了主成分分析和十二种非线性降维技术(多维尺度、等值线图、最大方差展开、KPCA、扩散图、多层自编码、局部线性嵌入、拉普拉斯特征图、Hessian局部线性嵌入、局部切线空间分析、局部线性坐标),他们发现,在实际数据中,传统的主成分分析比非线性方法更为精确。
在选择了输入变量并选择了降低输入变量的方法之后,选择一个学习模型来预测股票价格也是至关重要的。
递归神经网络(RNN)对序列数据的处理效果显著,Funahashi和Nakamura的研究表明,每个动态系统都可以通过连续时间的递归神经网络进行近似。由于递归神经网络(RNN)的出现,在最终数据的训练中显示出相当重要的结果,最基本的是简单的递归神经网络。但该模型存在一些缺点(消失问题或爆炸问题),为了解决这些问题,Hochreiter和Schmidhuber对传统的复发神经网络,即长短期记忆复发神经网络(LSTM)进行了改进。利用长短期记忆复发神经网络模型解决了用于大规模声学建模的长短时记忆递归神经网络结构、用长短期记忆复发神经网络递归神经网络进行诊断、基于长短期记忆复发神经网络神经网络的股票市场价格运动预测等不同领域的问题。例如,2014年Chung等人给出递归神经网络(RNN)的另一个变体,命名为门控循环单元(GRU)。它还用于长期预测(如LSTM)。在不同类型的递归神经网络(RNN)出现之后,最有效的版本是什么?Filippo等人的工作给出了答案,他们比较了五种类型的复发性神经网络:简单递归神经网络(SRNN)、长短期记忆复发神经网络(LSTM)、门控循环单元GRU、带有外源性输入的非线性自回归神经网络(NARX)和回波状态网络(ESN)。他们的目标是找到最有吸引力的递归神经网络(RNN)预测短期股票价格。他们发现,简单递归神经网络(SRNN)和回波状态网络(ESN)在短期内(几天到几周之间)给出了很好的结果,而长短期记忆复发神经网络(LSTM)和门控循环单元(GRU)在长期预测(几年)中会产生了很好的结果。。
本研究的目的是从八个特征中选择最优的输入数目,然后使用主成分(PAC)分析模型,再利用模型简单递归神经网络(SRNN)对29天的价格进行预测。
本文分为以下几个部分。第一部分给出了输入特征和简单递归神经网络(SRNN)的理论背景;在第二部分中,采用主成分分析的结果引出了选择从8个特征表中选择6个,再利用简单递归神经网络(SRNN)对卡萨布兰卡证券交易所Maroc总股价进行了预测;第三部分给出了结论。
2.材料和方法
2.1特征
选择能够提供关于价格演变的最多信息的特性是实现这一目标获得良好结果的重要一步。该模型的特点是:成交量、日开盘价、日最高收盘价、日最低收盘价、日收盘价、简单n日移动平均线()、指数n日移动平均线()、随机K%、随机D%。前五个特征可以直接从卡萨布兰卡证券交易所的网站上获得。反之,其余的则根据每日收盘价计算得出其价值。下面给出了计算公式:
简单n天移动平均值():计算基本n天移动平均值的公式为
其中,为上一个收盘价。
指数n日移动平均():是移动平均的一种,计算的公式是
式中,为前收盘价,是平滑因子,通常它的值在0.1到0.3之间。此外,是以前的移动平均值。
随机:随机振荡器使用以下公式计算:
其中,是当前收盘价。是前14个交易日的低价。是同一14天内交易的最高价格。
随机:随机的3周期移动平均值。
2.2简单递归神经网络
简单的递归神经网络,又称普通的递归神经网络,它包含一个输入层、一个隐藏层和一个输出层,在每一层中,至少有一个节点,隐藏层和输出层的每个节点都通过称为权重的边连接到前一个节点上。(如图1)
图1 简单的循环神经网络
在t时间上,网络通过激活函数处理输入向量更新其隐藏状态,并使用它来预测其输出。在时间t 1上,隐藏层接收来自上一时间步的输入向量和隐藏层的输出。更正式地说,给定一个N维的序列,如。反复神经网络(RNN)通过方程更新其递归隐藏状态
其中f是一个非线性函数,如logistic sigmoid函数()或双曲正切函数()。b是偏向,W和U是分别表示输入和隐藏权重的矩阵,用这个方程计算了输出。
其中g通常是线性变换,c是偏压,V是输出权重矩阵。
常用的模型训练方法是梯度下降法。在这个过程中,对参数进行修改,使依赖于估计输出与实际输出之间的误差的损失函数最小化网络。本工作中使用的损失函数是均方误差(MSE):
其中和分别是估计输出和实际输出,T是序列和的最后一个时间步。通过求出L的最小误差,我们可以说任务已经完成。在梯度下降过程中有两个主要步骤重复进行直到收敛。第一种:配置权重的递归神经网络 ,当处理一组输入数据时(继续)。索引K在时期K处标识它们的值,因为它们在优化过程中被更新。一种非常常见的方法不是评估整个训练集的损失函数来执行网络参数的单个更新,而是计算小批量训练数据上的梯度。
这种梯度更新方法称为随机梯度下降(SGD),更新方程为:
式中,为学习率。
3.结果和讨论
从卡萨布兰卡证券交易所的网站上收集到了三个月的Maroc总股价历史数据。其中,收盘价是目标价格。本研究所采用的特征为:简单20天移动平均线、指数20天移动平均线、随机、随机、成交量、日开盘价、日最高股价、日最低股价。第一步是使用主成分分析减少特征的数量。
表1 前四个特征的解释方差比
特征 |
开盘价 |
最高价 |
最低价 |
成交量 |
方差比 |
0.56783782 |
0.21999766 |
0.11928336 |
0.04129074 |
表2 最后4个特征的解释方差比
特征 |
SMA20 |
EMA20 |
Sto.K% |
Sto.D% |
方差比 |
0.02357055 |
0.01839223 |
0.00802321 |
0.00160444 |
表(1和2)显示了从数据中提供最基本信息的特征的方差比。前六个特征的方差和后两个方差特征之间存在着很高的方差比。综上所述,包含最多信息的变量是开盘价、最高价格、最低价格、成交量、简单20天移动平均线和指数20天移动平均线。这六个特征被用来作为反馈神经网络模型的输入数据。
图2显示了所有特征的方差比百分比。列车数据为2018年2月08日至2018年4月04日的40天,测试数据为2018年4月05日至2018年4月17日的29天。对于输入层和输出层中节点数量的选择取决于问题本身。对于隐藏层中的节点数,进行了多次测试,选择正确的节点数,如下表所示,每个隐藏节点数的误差作为观察值,18个节点的MSE较低(见表3和表4)
图2 8个功能的方差比百分比。
表3 RNN从1个隐藏节点到10个隐藏节点的毫秒数
节点 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
MSE |
0.046165 |
0.22729 |
0.042724 |
0.044678 |
0.094321 |
0.042363 |
0.022997 |
0.01331 |
0.007679 |
0.00739 |
表4 RNN从11个隐藏节点到21个隐藏节点的毫秒数
节点 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
MSE |
0.012226 |
0.019621 |
0.02316 |
0.01131 |
0.021528 |
0.008661 |
0.005956 |
0.00736 |
0.00949 |
0.00838 |
附:外文原文(原文可直接复印附后)
Abstract
Time series analysis is an important field that, recently, captivate researchers attention. It represents a lot o
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[273060],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。