基于神经网络和遗传算法的证券预测技术的研究

(1)

『ＩＩＩＩＩｌＩＩＩＩＩＩＩＩＩＩＩＩＩＩＭＩｒｌＩＩＩＩＩｌＩ＋Ｈ＋ＩＩＩｌ

Ｙ１４３７２７２

分类号：——

ＵＤＣ：

工学硕士学位论文

（高校教师）

密级：——

编号：——

基于神经网络和遗传算法的证券预测技术的研究

硕士研究生：苏丹

指导教师：蔡绍滨教授

学位级别：工学硕士

学科、专业：计算机应用技术

所在单位：黑河学院

论文提交日期：２００７年４月２日

论文答辩日期：２００８年３月２日

学位授予单位：哈尔滨工程大学

(2)

哈尔滨工程大学硕＋学位论文

摘要

预测是科学管理的重要环节，是决策、规划的前提，在社会经济管理中，

经常要对某一事物或系统的发展趋势进行预测和分析。而股票市场是经济的报警器，其作用不仅被政府所重视，而且受到投资大众的普遍关注。

起源于上世纪四十年代的人工神经网络是人工智能的一个分支，它在很多领域得到了广泛的应用。神经网络能学习贮存以往的历史经验知识，并能外推到未来，这是神经网络用于预测领域的理论依据。对于时间序列的股市预测，神经网络比其他数学模型更有效，而且精确度更高。

遗传算法具有强大的搜索能力，因此可以用来解决很多常规方法无法解决的问题。遗传算法与神经网络结合后，使得神经网络的结构参数等达到最优，大大地增强了神经网络的性能，使智能计算得到了突飞猛进的发展。因此对遗传算法和神经网络的研究具有很重要的意义。

本文基于股票市场高度非线性的特点，从遗传算法和神经网络的基本理论入手，提出了一种ＧＡ—ＢＰ算法，来解决基本ＢＰ算法在权值调整过程中存在的收敛速度慢、易陷入局部极小点的不足。ＧＡ—ＢＰ算法具有遗传算法全局搜索的特点，注重搜索未知区域，同时也具有神经网络处理速度快、精度较高的特点。理论分析和实验结果表明，神经网络用于股票市场的预测是可行和有效的，有着良好的前景，而ＧＡ－ＢＰ算法进一步提高了运行的速度和可靠性。

关键词：股市预测；遗传算法；神经网络；ＢＰ算法

(3)

哈尔滨Ｔ程大学硕士学位论文

Ａｂｓｔｒａｃｔ

Ｆｏｒｅｃａｓｔｉｎｇｉｓ

^ａｌｌｉｍｐｏｒｔａｎｔ

^ｌｉｎｋ

ｉｎｓｃｉｅｎｔｉｆｉｃ

ｍａｎａｇｅｍｅｎｔａｎｄｐｒｅｍｉｓｅｂｅｆｏｒｅ

ｐｏｌｉｃｙ－ｍａｋｉｎｇ

ａｎｄｌａｙｏｕｔ．Ｉｔｉｓ

ｎｅｃｅｓｓａｒｙ ^ｔｏ ^{ｆｏｒｅｃａｓｔ} ａｎｄａｎａｌｙｚｅｅｖｏｌｕｔｉｏｎｔｒｅｎｄ

ｏｆ

ｓｏｍｅ

ｓｙｓｔｅｍｓ．Ａｎｄｓｔｏｃｋ

ｍａｒｋｅｔ

ｉｓ

^ａｌｌａｌａｒｍ，ｗｈｏｓｅ

ｆｕｎｃｔｉｏｎｉｓ

ｎｏｔ

ｏｎｌｙｖａｌｕｅｄｂｙｔｈｅ

ｇｏｖｅｒｎｍｅｎｔ

^{ｂｕｔａｌｓｏ}

ｃｏｎｃｅｒｎｅｄ

ｂｙｉｎｖｅｓｔｏｒｓ．

，

Ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｉｓ

ａｎｅｍｂｒａｎｃｈｍｅｎｔ

ｏｆａｒｔｉｆｉｃｉａｌ

ｉｎｔｅｌｌｉｇｅｎｔ，ｗｈｉｃｈ

ｗａｓ

ｏｒｉｇｉｎａｔｅｄ^ｉｎ

１９４０ｓａｎｄｈａｓｂｅｅｎｗｉｄｄｙａｐｐｌｉｅｄ

^ｔｏｍａｎｙ

ｆｉｅｌｄｓｎｏｗ．Ｎｅｕｒａｌ

ｎｅｔｗｏｒｋｃａｎｒｅｓｅｒｖｅ

_{ｐｒｅｅｎｉｎｇ}

ｉｎｆｏｒｍａｔｉｏｎａｎｄ

ｋｎｏｗｌｅｄｇｅ，ｗｈｉｃｈｉｓ

ｔｈｅ

ｔｈｅｏｒｅｔｉｃａｌ

ｂａｓｉｓｗｈｅｎｕｓｅｄｔｏｆｏｒｅｃａｓｔ

ｔｈｅｆｕｔｍ＇ｅ．Ａｓｆｏｒ

ｔｉｍｅ

ｓｅｒｉｅｓ

ｆｏｒｅｃａｓｔ，ｎｅｕｒａｌ

^{ｎｅｔｗｏｒｋ} ｉｓ

ｍｏｒｅｅｆｆｉｃｉｅｎｔａｎｄ

_{ｐｒｅｃｉｓｅ}

ｔｈａｎ

ｍａｔｈｅｍａｔｉｃａｌ

ｍｏｄｅｌｓ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｗｉｔｌｌｔｈｅ

ｇｒｅａｔｓｅａｒｃｈｉｎｇ

ａｂｉｌｉｔｙ，ＧＡ（ｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ）ｃａｎ

ｓｏｌｖｅｍａｎｙ

ｐｒｏｂｌｅｍｓｔｈａｔ

ｏｔｈｅｒａｌｇｏｒｉｔｈｍｓ

ｃａｎ＇ｔ

ｄｏ．ＧＡ

Ｗａｓｃｏｍｂｉｎｅｄ

ｗｉｔｈ

ＡＮＮ，ａｎｄ

ｉｍｐｒｏｖｅｄ

^ｔｈｅ

ｃａｐａｂｉｌｉｔｙｏｆｔｈｅＡＮＮｇｒｅａｔｌｙ．Ｔｈｅ

ｃｏｍｂｉｎａｔｉｏｎｍａｋｅｓｔｈｅＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｉｎｇ

ｄｅｖｅｌｏｐｒａｐｉｄｌｙ．Ｓｏ，ｓｔｕｄｙｉｎｇｔｈｅｔｗｏ

ｓｕｂｊｅｃｔｓ

^ｉｓ

^ｖｅｒｙｓｉｇｎｉｆｉｃａｎｔ．

Ｔｈｉｓ _{ｐａｐｅｒ}

ｓｔａｒｔｓ

ｗｉｔｈｔｈｅｂａｓｉｃ

ｔｈｅｏｒｙ

^{ｏｆＧＡ．Ｔｈｅ}

^{ｔｈｅｓｉｓ} ｐｒｅｓｅｎｔｓ

^{ＧＡ－－ＢＰ}

ａｌｇｏｒｉｔｈｍ

^{ｂａｓｅｄ} ^Ｏｌｌｔｈｅｈｉｇｈ－ｎｏｎｌｉｎｅａｒ

ｓｐｅｃｉａｌｉｔｙｏｆｓｔｏｃｋｍａｒｋｅｔ，ａｎｄａｌｓｏｔａｋｅｓｔｈｅ

ｓｈｏｒｔｃｏｍｉｎｇ

^ｏｆ

ｂａｓｉｃ

ＢＰ

ａｌｇｏｒｉｔｈｍ

ｔｈａｔｉｎｃｌｕｄｅｓ

ｔｈｅ

ｓｌｏｗ

ｃｏｎｖｅｒｇｅｎｃｅ

^{ｓｐｅｅｄ}

ａｎｄ

ｌｏｃａｌ

ｅｘｔｒｃｍｕｍｉｎｔｏａｃｏｔｍｔ．Ｔｈｅ

ＧＡ一－ＢＰ

ａｌｇｏｒｉｔｈｍｈａｓ

^ｔｈｅ

ｃｈａｒａｃｔｅｒ

ｏｆ

ｔｈｅ

ｗｈｏｌｅ

ｓｐａｃｅ

ｓｅａｒｃｈ．ＴｈｅＧＡｐａｙｓ

ａｔｔｅｎｔｉｏｎｔｏｔｈｅｕｎｋｎｏｗｎ－ａｒｅａｓｅａｒｃｈ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｉｔ

^ａｌｓｏ

ｈａｓｈｉｇｌｌｓｐｅｅｄ^ａｎｄ

ｒｅｌａｔｉｖｅｌｙｈｉｇｈｐｒｅｃｉｓｉｏｎ．Ｉｔｗｉｌｌ

^ｎｏｔ

ｇｅｔ

ｉｎｔｏ

ｌｏｃａｌｅｘｔｒｅｍｕｍ．Ｔｈｅ

^ＢＰａｌｇｏｒｉｔｈｍｓｅａｒｃｈｅｓｔｈｅａｒｅａｔｈａｔｉｎｃｌｕｄｅｓｔｈｅ

ｗｈｏｌｅｓｐａｃｅ

ｍｉｎｉｍｕｍ．ＩｔＣａｎ

_{ｉｍｐｒｏｖｅ}

ｔｈｅｓｐｅｅｄ

^ａｎｄｐｒｅｃｉｓｉｏｎ．Ｔｈｅｏｒｅｔｉｃａｌ

ａｎａｌｙｓｉｓａｎｄｅｘｐｅｒｉｍｅｎｔ

ｒｅｓｕｌｔｓｓｈｏｗ

ｔｈａｔ

ｔｈｅ

ｍｅｔｈｏｄ

ｏｆｓｔｏｃｋ

ｐｒｅｄｉｃｔｉｏｎ

ｕｓｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｉｓｆｅａｓｉｂｌｅ

ａｎｄｅｆｆｉｃｉｅｎｔ．Ｉｔ

ｈａｓｆａｖｏｒａｂｌｅｆｏｒｅｇｒｏｕｎｄ．Ｉｔｉｓａｌｓｏ

ｐｒｏｖｅｄ ^ｔｈａｔ

ＧＡ－－—－ＢＰ

ａｌｇｏｒｉｔｈｍＣａｎｉｍｐｒｏｖｅｔｈｅｓｐｅｅｄ

ａｎｄｃｒｅｄｉｂｉｌｉｔｙ．

Ｋｅｙｗｏｒｄｓ：ｓｔｏｃｋ

ｐｒｅｄｉｃｔｉｏｎ；ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ；Ａｒｔｉｆｉｃｉａｌ

ＮｅｕｒａｌＮｅｔｗｏｒｋ；

ＢＰ

Ａｌｇｏｒｉｔｈｍ

(4)

哈尔滨工程大学学位论文原创性声明

本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

作者（签字）：苏丹

日期：知扩年岁月：；日

(5)

１．１研究的背景

第１章绪论

我国证券发行市场是以１９８１年７月发行的国债为标志，１９８７年开办国债二级市场，８０年代初一些企业逐步开始发行股票，１９８６年沈阳出现自发的股票交易市场。９０年代在上海、深圳相继建立的证券交易所真正体现了证券市场规范集中的发展，证券投资逐渐成为现代经济生活中最常见的高效益与高风险并存的活动，也逐步成为证券业及整个金融业的必不可少的组成部分。

由于股市行情受经济、政治等因素的影响，其内部规律非常复杂，市场的突发消息较为频繁，变化周期无序，人为操纵的因素仍然比较大，高效益与高风险比较明显，使得市场经济体制不完备。股市对于国家的政策性导向非常敏感，经常出现暴涨暴跌的现象，证券公司积累的大量客户相关数据分散、

缺乏聚集、合适的分析技术，不能有效地转换成支持客户服务的信息，因而关于股市分析与预测的研究一直为人们所关注。

另外，股市的建模与预测所处理的信息量十分庞大，对算法有很高的要求。正是其复杂的非线性动力学特性，使得关于股市的预测往往难如人意。

关于股市分析与预测的研究一直为人们所关注，传统的统计方法，可以预测一段时间内股指变化的大致走势，但股指短期的涨跌往往是投资者更感兴趣的信息。此外，传统方法还要事先知道各种参数，以及这些参数在什么情况下应作怎样的修正，已经不能满足我们的需要，而近十几年发展起来的数据挖掘方法逐渐成为非线性动态系统预测与建模的强有力工具，可以说，数据挖掘在证券行业得到了最全面的应用。

以开发出多个有兴趣的数据挖掘主题，

１．２研究目的及意义

围绕证券市场参与者的不同需求，可并建立一系列的应用模型。

本文的研究目的是采用数据挖掘中神经网络和遗传算法相结合的方法，以准确的调查统计资料和股市信息为依据，从历史数据中提取有关经济活动中的知识，克服了传统定量预测方法的许多局限以及面临的困难，同时也避免了许

(6)

哈尔滨工程大学硕士学位论文

多人为因素的影响，找到证券市场运动的短期规律。正确的认识股票市场的运动规律能为投资者增加投资收益，赚得大量股票价差金额，减少股票投资风险。

如果投资者都能理智投资，依据技术指标，遵循预测算法的原理，把握恰当的投资时机，那么中国的证券市场将会有更多的投资者加入进来。

１．３国内外相关理论的发展现状

证券交易是为了获得高收益而主动承担高风险的投资活动，这种随机性特点，使得投资者们时刻在分析证券市场、试图预测市场变化的趋势，近年来，一些证券市场预测模型逐渐产生和发展逐步完善起来，主要有以下几种：

１．ＡＲＣＨ类模型

该模型由Ｅｎｇｌｅ，Ｂｏｌｌｅｒｓｌｅｖ等针对股票市场波动性表现出的时变特点与

“集聚效应”提出的，ＡＲＣＨ类模型采用时变的条件方差来捕捉价格波动的时变性和序列相关性，但由于ＡＲＣＨ模型将条件方差定义为过去观测值的平方

项和前期条件方差的确定性函数，条件方差的估计与过去观测值直接相关，

因此当存在异常观测值时，估计的波动性序列不是很稳定。另外，该模型对周期波动性的预测能力较差。

２．无参数中心回归技术

２０００年ＭＩＴＳｌｏａｎ商学院学者ＡｎｄｒｅｗＷＬｇ

Ｈａｒｒｙ

Ｍａｍａｙｓｋｙ和ＪｉａｎｇＷａｎｇ等人发表该研究成果¨１，对美国股市３１年的历史股价进行平滑分析。

根据平滑后价格曲线的拐点定义５类１０种标准的技术图形，可以很清楚的发现历史股市数据的变化规律。

３．神经网络

神经网络是一种最新的时间序列分析方法，文献【２．５】中根据预测目标和研究对象的不同选择相应的变量，使用误差反传算法训练网络，对金融市场的进行预测。文献［６】对误差反传算法进行改进，应用于对股票价格的涨跌趋势进行预测，取得比较满意的预测结果，也在一定程度上证明了股市不完全满足随机游走（ＲａｎｄｏｍＷａｌｋ）理论，说明股市具有可预测性。Ｒｅｆｅｎｅｓ等人将神经网络预测方法和多重线性回归方法在证券市场预测中的应用进行了比较研究，指出神经网络的平滑内插特性使其能较好的拟合数据并能更好地泛化，

２

(7)

其预测精度比线性统计预测方法有较大的提高。Ｄｕｔｔａ和Ｍａｒｑｕｅ等人曾将神经网络与线性回归这两种方法做过比较，其结论是神经网络能得到与线性回归相近或更好的结果。

４．径向基网络

这种类型的网络存在局部最优的问题，使得其在非线性时间序列预测中得到广泛应用，由于遗传算法有广泛的全局寻优能力，因此在预测应用中，

经常配合使用。文献［７］［８］采用遗传算法来优化网络结构，利用权重的调节作用，对聚类进行修正，淘汰掉距离较远的中心，使聚类更加准确。

５．回归神经网络

文献［９】使用四层回归神经网络，以五个不同的股票市场（加拿大、香港、

日本、英国、美国）的历史交易数据预测下一年的股票回报，为个人投资决策提供参考，做出了成功的探索。

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘问题。而且数学上己经证明了，

人工神经网络可以逼近那些最佳刻画样本数据规律的函数，而不论这些函数具有怎样的形式。径向基神经网络（ＲＢＦ）是局部逼近网络。从理论上讲，ＲＢＦ神经网络具有任意函数逼近能力，它通过自动增加隐层神经元的方法很快达到了预先所设定的目标误差值，这时训练样本点的网络输出值与目标输出值完全重合，但是检验样本点的网络输出值与目标输出值自身具有较大的差距。

ＢＰ网络是一个多层的前馈神经网络，学习过程由信号的正向传播与误差的反向传播两个过程循环进行的。权值的不断调整过程就是网络的训练过程。ＢＰ网络训练算法使用的是ＢＰ算法，具有结构清晰、易实现、计算功能强大等优点。虽然回归神经网络在输入结点数相同的情况下，达到最小误差时，所需要的隐层结点数一般比ＢＰ算法少，但其网络性能随着输入结点的增加，提高效果不如ＢＰ网络显著，而且有迂回现象，且随着训练次数的增加，回归网络性能明显不如ＢＰ网络的性能好。这也是本文采用ＢＰ神经网络的原因。

１．４论文的主要内容及创新点１．４．１主要内容

本文主要是对时间序列的股市历史数据进行数据挖掘，从中发现蕴涵在

３

(8)

哈尔滨ｊ】：程大学硕十学位论文

内部的模式，用来对时序变化作出分析。将股票的连续变量进行离散化处理，

增强变量间的相关性，通过遗传算法优化的神经网络模型，得到股市短期的预测结果。

本文内容安排如下：

第１章阐述了本文研究的背景、目的、意义及国内外相关理论的发展现状，概述了本文的主要内容。

第２章简单介绍神经网络的基本理论，具体分析ＢＰ神经网络算法的思想，通过实验用数据分析了它的缺点并提出改进方法。

第３章介绍了实验数据的来源和数据预处理的方法，并根据本实验数据自身的特征提出一种新的数据预处理方法。

第４章研究遗传算法应用设计中的各个部分及其特点，提出将神经网络和遗传算法结合的思想，具体分析了使用遗传算法优化神经网络结构和权值的原理及过程。

第５章为采用改进的神经网络预测股市行情的设计和实现部分，给出了遗传算法优化神经网络权值ＧＡ—ＢＰ算法的具体描述，给出股市预测模型的基本实现，并对实验数据进行仿真、评价。

本文力求表现数据挖掘的基本思想，并使其与证券分析基本原理相结合，

以期提高股市行情预测的精度。

１．４．２创新点

本文以解决具体实际问题为目的，把理论研究与实证研究相结合，采用

多种挖掘方法，按照数据收集一＞数据预处理一＞模型设计一＞模型验证、评

价的流程来进行实证研究，研究中定量与定性分析相结合。有两方面创新：

１．数据的预处理：根据实验数据的自身特征，提出了一种数据自身乘方归一化的预处理方法，将股票的连续变量进行离散化处理，增强变量间的相关性，提高预测精度。

２．预测模型：分析了ＧＡ和ＢＰ算法的特点，提出了ＧＡ．ＢＰ算法，采用遗传算法优化神经网络的权值和阈值，提高了网络收敛速度和模型的预测精度。

４

(9)

哈尔滨ｆ：稗人学硕十学何论文

第２章基于神经网络的证券预测技术的研究

２．１

ＢＰ神经网络概述

神经网络（ＮｅｕｒａｌＮｅｔｗｏｒｋ），也称为人工神经网络（Ａｒｔｉｆｉｃｉａｌ

^{Ｎｅｕｒａｌ}

Ｎｅｔｗｏｒｋ，ＡＮＮ），是由大量连接的简单的神经元（Ｎｅｕｒｏｎｓ）构成的规模宏大的并行分布式处理器网络，天然具有存储经验知识和使之可用的特性，是对人类大脑的粗略简单模拟、抽象和简化，它具有通过实施相应的算法从外界环境中学习获取知识并解决问题的能力，而且知识是分布存储在互连神经元连接权（突触权值）中。ＢＰ网络（Ｂａｃｋ．Ｐｒｏｐａｇａｔｉｏｎｎｅｔｗｏｒｋ，反向传播网络）是一个多层的前馈神经网络，因其网络训练算法使用的是ＢＰ算法而得名，具有结构清晰、易实现、计算功能强大等优点，是目前最常见、使用最广泛的一种神经网络。

ＢＰ神经网络的学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，输入样本从输入层输入，经各隐层逐层处理后，传向输出层。若输出层的实际输出与期望输出（教师信号）不符，则转入误差的反向传播阶段。误差的反传是将输出误差以某种形式通过隐层向输入层反传，并将误差分摊给各层的所有单元，从而获得各层单元的误差信号并将其作为修正各单元权值的依据。这种信号正向传播与误差反向传播是循环进行的。权值的不断调整过程就是网络的训练过程。ＢＰ网络学习算法是非循环多级神经网络的训练算法。虽然该算法的收敛速度非常慢，但由于它具有广泛的适用性，使得它在１９８６年被提出后，很快就成为应用最为广泛的多级网络训练算法，并对人工神经网络的推广应用发挥了重要作用。据统计，在实际人工神经网络应用中，有９０％的是使用ＢＰ神经网络。多层ＢＰ网络不仅有输入结点、

输出结点，而且有一层或多层隐结点，如图２．１所示。

５

(10)

哈尔滨工程大学硕士学位论文．

输出层

隐层

输入层

图２．１ＢＰ网络模型结构

假设：输入结点与隐结点间的网络权值为∞ｉｉ，隐结点与输出结点问的网络权值为瓦，阈值为ｐ，误差函数为Ｅ。ＢＰ网络三层结点表示为：输入结点

ｘｊ，隐结点Ｙｉ，输出结点０^Ｉ。

（１）设定学习次数初值为ｔ＝Ｏ；用小的随机数初始化网络权值和阈值，

∞ｕ（ｔ）∈【－１，１】，∞ｊｋ（ｔ）∈【・１，１】，吼（砂∈【－１，１】，吼（∥∈【一１，１】。

（２）输入一个学习样本（Ｘｐ，ＴＰ），其中ｐＥ｛１，２，…Ｎ），Ｎ为样本

数，Ｘ^Ｐ

ＥＲ。，Ｔ

^Ｐ

ＥＲ…。

（３）计算隐层各结点的输出值：

Ｙｊ－２ｆ（弘ｙ；Ｉ－０ｊ）＝ｆ（耋叩吡印ｊ∈｛１，２，…ｎ：】－（２－１）

（４）计算输出层各结点的输出：

Ｙ：＝ｆ（∑％Ｙｊ。吼）ｋ∈｛１，２…．ｍ）（２－２）

（５）计算输出层结点和隐层结点之间连接权值的修『Ｆ量：

６

(11)

６ｋ＝（Ｔｋ－Ｙ

ｋ）。ｙｋ。（１一Ｙｋ）

ｋ∈｛１，２，…ｍ’

（２－３）

（６）计算隐层结点和输入层结点之间连接权值的修正量：

２２ｍ

６ｊ＝ＹＪ・，‘１－Ｙ’’・荟６Ｉ・∞ｊｋ（２－４）

（７）利用下列（２．５）式修正输出层结点ｋ和隐层结点ｊ的连接权值∞ｉ。，利用（２－６）式修正输出层结点ｋ的阈值。其中６。为（２－３）式求出的误差修正量。

∞ｊｋ（ｔ＋１）＝∞ｊｋ（ｔ）＋ａ

^６ｋＹ’

（２－５）

ａｋ（ｔ＋１）＝口ｋ（ｔ）＋卢６ｋ ^{（２—６）}

（８）利用（２－４）式修正隐层结点ｊ和输入结点ｉ的连接权值∞ｉｉ，利用（２—８）

式修Ｊ下隐层结点ｊ的阈值，其中６；为（２－４）中求出的误差修正量。

０３Ⅱ（ｔ＋１）－０３ｕ（ｔ）＋ａ

^６ｊｙｉ

（２－７）

日ｊ（ｔ＋１）＝吼（ｔ）＋∥６ｊ

^{（２－８）}

（９）如果未取完全部学习样本，则返回步骤２。

（１０）计算误差函数Ｅ，并判断Ｅ是否小于规定的误差上限，如果是小于或者达到学习次数限制，则算法结束；否则更新学习次数ｔ＝ｔ＋ｌ，返回步骤（２）。

上述ＢＰ算法采用逐次修正法，即针对每个输入样本进行一次权值和阈值的修改，而另一种修正法对每个输入样本计算修正量，对权值修正量逐次累加，但不马上进行权值和阈值的修正，当全部学习样本学习结束后，才修正权值和阈值。这是一种批处理的修正方法。

２．２股市预测技术

２．２．１股市预测的传统方法

传统的股市预测方法有技术分析法、基本分析法和组合分析法三大类。

７

(12)

哈尔滨一Ｉ：程大学硕士学位论文

技术分析法是通过对过去所发生的价格、时间、成交量的思考来推算未来的行情，主要研究市场行为，是市场行为的经验总结。技术分析的优势是：

同市场比较接近，考虑问题比较直接，用技术分析指导股票买卖见效快，获得利益的周期短；它对市场价格变化的反映比较直观，分析结果比较接近市场的局部价格运动规律；技术分析能够根据那些残留在图表上的变化痕迹反过来了解基本面的变化。但其局限性是：难以事先推测市场总的结构变化，

总会遇到技术分析失准的问题。

基本分析法以经济学、财政金融学、财务管理学、投资学等理论为基础，

研究的是影响股市走势的基本因素。基本分析能够比较全面地把握证券价格的基本走势，并且应用起来比较简单。但是基本分析有其致命的弱点，它对市场的反映比较迟钝，预测的时间跨度相对较长，因此对市场的短线操作缺乏指导意见；它对市场预测的精确度不如技术分析，特别是在中国这样一个

／１ｉ成熟的股票市场，股民对统计资料和市场信息的获取具有明显的滞后性，

对统计数据的整理、归纳需要较高分析能力和专业技巧，因此对普通散户投资者而言，要想熟练的利用基本分析法指导正常操作还是比较难的。

组合分析法是将技术分析法和基本分析法二者结合起来的一种方法。在中国股票市场上进行股票投资，在运用技术分析指导市场的同时，不应忽视对基本因素的分析，特别是中长线投资者，应将基本分析与技术分析结合起来，完全不理会基本面，也是片面的。

目自，Ｊ．，一一般投资者及股票市场预测专家所运用的大多是这三种分析工具。

这三种分析工具不需要高深的理论和文化水平，因此被投资大众看中并运用到投资决策中。但是，真正研究股市的学者绝不限于这些分析方法。下面在学术范围内介绍一下常用的股市预测方法。

１．时间序列预测方法

时间序列是指同一种现象在不同时间上的相继观察值排列从而成的一组数字序列。时间序列预测方法的基本思想是：预测一个现象的未来变化时，

用该现象的过去行为来预测未来。即通过时间序列的历史数据揭示现象随时问变化的规律，将这种规律延伸到未来，从而对该现象的未来作出预测。常

用的时间序列分析法主要是建立自回归模型Ｏ娘）、移动平均模型（ＭＡ）、自动回归——移动平均模型（ＡＲＭＡ）和齐次非平稳模型（ＡＲＩＭＡ），其中ＡＲＩＭＡ是

８

(13)

哈尔滨Ｔ稃大学硕十学俯论文

较成熟的模型。

该方法常用来对股价（最高价、最低价、开盘价、收盘价）的综合指数进行预测，通过选择模型的参数和辨识模型的系数来实现对时间序列的拟合好的模型对未来进行预测。

２．神经网络预测方法

神经网络是一种按照人脑的组织和活动原理而构造的一种数据驱动型非线性模型，是由神经元结构模型、网络连接模型、网络学习算法等几个要素组成。要使神经网络产生所希望的行为，必须对其进行训练，即通常所说的网络学习。学习时，每一条连接弧都不断地调整自己的权值，以使神经网络的实际输出和期望输出之间的方差达到最小，学习的效果直接影响网络的预测精度。

由于股市系统是一个复杂的非线性系统，而且系统的环境每时每刻都在发生变化，因此我们希望能够建立一个参数随预测环境的变化而变化的非线性模型，人工神经网络方法为这一问题提供了可能性。

２．２．２神经网络预测方法与传统预测方法的比较

股票价格以及企业的可信度，密切关系到投资者的利益１１０１。要对它们进行预测，我们首先必须承认它们之间存在着某种规律。这些规律完全隐藏在历史数据中，从数学的角度来讲，他们表现为一种函数关系。预测的目的就是找出并利用这些规律。而传统的统计方法，能预测一段时间内的大致趋势，

但短期的跳跃却往往足投资者更感兴趣的信息。众所周知，传统预测方法有一个共同的局限性，即被控对象或过程的数学模型必须预先知道，运用数学方法构造模型进行预测。但实际上有很多被控对象极其复杂，无法建立精确的模型。而且这种方法理论上虽然很精确，但它却需要大量繁杂的、严格的数学公式推导，没有容错能力和自学习能力，对参数变化敏感，环境和结构稍作改变就必须重新建立数学模型，适应性差。另外，传统方法还要事先知道各种参数，以及这些参数在什么情况下应作怎样的修正。

由于股市运作是一个巨大的非线性系统，股价走势受到政治、经济、心理等多种因素影响，使得对用传统的技术分析上具有进行股票买卖决策难度大，不同人的分析结构差异显著。传统分析上具有的Ｋ线图、平均线图等以

９

(14)

哈尔滨丁程大学硕士学位论文

其简单易懂的特点受到人们的青睐，但是，这种通过对图形走势的研究、对数据表格的统计分析以预测股市的变化趋势的工作最终必须依靠人脑来完成。由于人们在知识、能力、经验上存在较大的差异，加之问题本身又具有很大的随机性和高度的非线性，即使是一些金融专家、炒股高手对出现的同一复杂行情进行分析，往往也会得出不同的结论。

相比之下，神经网络用于股市预测取得了很好的效果，数学上己经证明了，人工神经网络可以逼近那些最佳刻画样本数据规律的函数，而不论这些函数具有怎样的形式。神经网络的学习能力以及通过学习掌握数据间的依存关系，在股市预测中显示出一定的优越性，比以往依靠推导数学模型、参数寻优的非常精确而又因此带来局限性的传统方法具有极大的优越性。股价走势呈高度非线性，并且成交价、成交量中包含有大量决定股价变动的内在规律和特点，通过对历史交易数据的学习，人工神经网络就能从纷繁复杂的数据中自主的寻找出参数之间的规律和特点，并且刻画这些规律和特点，因此

用它对股票价格走势预测具有很好的效果。

神经网络在非线性预测中最常用的是ＢＰ网络，这也是本文所采用的网络结构。

２．３基于ＢＰ算法的证券预测技术的性能分析

２．３．１

ＢＰ算法的Ｍａｔｌａｂ实现

１．Ｍａｔ

Ｉａｂ语言的特点

本文采用Ｍａｔｌａｂ７．０的编程环境，它是一种开放式软件，经过一定的程序可以将开发的优秀的应用程序集加入到Ｍａｔｌａｂ工具的行列。这样，许多领域前沿的研究者和科学家可以将自已的成果集成到Ｍａｔｌａｂ之中，为全人类继承和利用。Ｍａｔｌａｂ语言有不同于其它高级语言的特点，它被成为第四代计算机语言。使人们摆脱了对计算机硬件操作一样，Ｍａｔｌａｂ语言使人们从琐碎的程序代码中解放出来【２７】。它的丰富函数使开发者无须重复编程，只要简单的调用和使用即可，其语言最大的特点是简单和直接。Ｍａｔｌａｂ语言具有以下几个特点：

（１）编程效率高。它允许用数学形式的语言编写程序，这更加接近我们

１０

(15)

哈尔滨一Ｌ程大学硕十学位论文

书写计算机的思维方式，它编写简单，所编程效率高，易学易懂。

（２）用户使用方便。它可以直接在命令行输入Ｍａｔｌａｂ语句（命令），包括调用Ｍ文件的语句，每输入一条语句，就立即对其进行处理，完成编译、连接和运行的全过程。如果有错，计算机屏幕上会给出详细的出错信息，用户修改后再执行，直到正确为止，从广义上说它还是一种语言开发系统，即语

言调试系统。 ^．

（３）扩充能力强，交互性好。用户可以根据自已的需要方便的建立和扩充新的库函数，以提高Ｍａｔｌａｂ的使用效率和扩张它的功能，并能与Ｆｏｒｔｒａｎ、

Ｃ语言进行方便的互相调用、混合编程，这样良好的交互性使程序员可以使用以前编写过的程序，减少重复性工作，也使现在编写的程序具有重复利用

的价值。 ^．

（４）移植性和丌放性都很好。它是Ｃ语言编写的，因此它可以很方便地移植到能运行Ｃ语言的操作平台。除内部函数外，Ｍａｔｌａｂ所有的核心文件和工具箱文件都是公开的，都是可读可写的源文件，用户可以通过对源文件的修改和自己编程构成新的工具箱。

（５）语句简单，内涵丰富。Ｍａｔｌａｂ语言中最重要最基本的成分是函数，

其一般形式为：【ａ，ｂ，ｃ…］＝ｆｕｎ（ｄ，ｅ，ｆ…），即一个函数由函数名、输入变量和输出变量组成。同一函数名，不同数目的输入和输出变量，代表着不同的含义，

使得它编写的Ｍ文件简单、短小而高效。

（６）方便的绘图功能。它有一系列绘图函数（命令），均只需调用不同的绘图函数，在图上标出Ｘ，Ｙ轴标注也只需调用相应的命令，简单易行。另外可绘出不同颜色的点、线、复线或多重线，这是一般通用的编程语言所不及

的。

２．在Ｍａｔｌａｂ７．０中ＢＰ神经网络的使用过程

（１）ＢＰ神经网络的初始化

ＢＰ算法是有指导的训练，网络的初始化影响算法的收敛速度，甚至影响网络是否能收敛。Ｍａｔｌａｂ下的神经网络工具箱提供了现成的权值、阈值的初始值。

设训练样本由输入输出向量对【ｐ，ｔ】组成。Ｐ和ｔ的维数分别为输入、输出层神经元数；ｗｌ、ｗ２分别表示输入层至隐层、隐层至输出层的权值。ｂ１，ｂ２

(16)

哈尔滨Ｔ稃火学硕十学位论文

分别为隐层神经元阈值以及输出层神经元阈值。Ｓ１表示隐层神经元数。

在设计ＢＰ神经网络时，只要已知输入向量Ｐ、各层的神经元数、各层神经元的传递函数，就可以利用函数ｉｎｉｔｆｆ对ＢＰ网络的权值进行初始化。理论上，一个三层ＢＰ网络，就可逼近任意函数。以三层神经网络为例，输入层和输出层的传递函数分别为ｔａｎｓｉｇ（正．切Ｓ型函数），ｐｕｒｅｌｉｎ（线性函数），该ＢＰ

网络可用以下语句进行初始化：

【ｗｌ，ｂｌ，ｗ２，ｂ２］＝ｉｎｉｔｆｆ（ｐ，Ｓｌ，‘ｔａｎｇｓｉｇ’，ｔ，‘ｐｕｒｅｌｉｎ’）

（２）网络的训练

神经网络工具箱函数ｔｒａｉｎｇｄ，ｔｒａｉｎｇｄａ，ｔｒａｉｎｇｄｘ用来对ＢＰ网络进行训练，它们的用法是类似的，只是采用的学习规则有所不同。函数ｔｒａｉｎｇｄ是采用最速梯度下降的算法ｉ）ＪＩ网络：ｔｒａｉｎｇｄａ则是采用学效率可变的最速梯度下降的算法训网络；而ｔｒａｉｎｇｄｘ采用了动量法和学习率自适应调整的策略。由于ＢＰ网络是由一个正切Ｓ函数和一个纯线性输出层组成。因此它可实现任何有限值函数。ｔｒａｉｎｇｄ的使用方法如下：

ｎｅｔ．ｔｒａｉｎＰａｒａｍ．ｓｈｏｗ＝５０；

％两次显示之间的训练步数ｎｅｔ．ｔｒａｉｎＰａｒａｍ．ｅｐｏｃｈｓ－－５０００；％最大训练次数

ｎｅｔ．ｔｒａｉｎＰａｒａｍ．ｇｏａｌ＝０．０００５：％训练目标

ｎｅｔ＝ｎｅｗｆｆ（ｍｉｎｍａｘ（ｐｎ），［３８，１】，｛’ｔａｎｓｉｇ＇，＇ｐｕｒｅｌｉｎ’），’ｔｒａｉｎｇｄ’）； ^{％建立神经网} 络

ｎｅｔ＝ｔｒａｉｎ（ｎｅｔ，ｐｎ，ｔｎ）；％训练网络

（３）网络的仿真

前馈网络由一系列网络层组成，每一层都从前一层得到输入数据，ｓｉｍｕｆｆ函数可用于仿真三层的前馈网络。如：

ｙ＝ｓｉｍｕｆｆ

ｘ，ｗｌ，ｂ１，’ｔａｎｓｉｇ’，ｗ２，ｂ２，’ｐｕｒｅｌｉｎ’）

上式ｘ表示输入信息，Ｙ表示预测结果。

（４）输出误差显示

ｐｌｏｔｅｒｒ（ｅ，ｅ曲用于绘制误差行向量ｅ随训练次数的变化图，同时以点线绘制出误差指针。

以上是在Ｍａｔｌａｂ环境下ＢＰ网络的初始化、训练和仿真函数。利用Ｍａｔｌａｂ的神经网络工具箱，本文进行了数据的编程计算。

１２

(17)

哈尔滨丁程大学硕士学位论文

１１＂ｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉ葺ｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉ宣２．３．２基于ＢＰ算法的证券预测技术的性能分析

下面采用未改进的ＢＰ网络进行实验，来说明传统ＢＰ算法的缺点，实验数据见３．１节，数据未进行预处理，网络的输入结点数和隐层结点数分别定为７和１６，训练函数为ｔｒａｉｎｇｄ，对７０个训练样本进行仿真。训练５０００步和１００００步时，训练目标曲线如图２．２所示。图２．３为２８个测试样本的预测曲线图，

图２．２ＢＰ算法的训练目标曲线

(18)

图２．３样本的预测曲线图在以上实验中发现，ＢＰ算法存在三个主要问题，即１．收敛速度慢

训练５０００次和１００００次所用的时间分别为２３．２９６０００ｓ和４６．２３４０００ｓ，即学习过程中，下降慢，学习速度缓慢，易出现一个长时间的误差平坦区，图２．２可以看出训练步数到达２００以后，出现平台。ＢＰ算法的收敛速度与好多因素有关，它的主要原因之一是某些结点的输出大，它对权值小的变化不敏感，从而使其收敛速度慢。

２．函数存在局部极小值点

１４

(19)

训练５０００次和１００００次达到的均方误差分别为０．０３００６５２和０．０１９３８１５，

当学习反复进行到一定次数后，网络的全局误差减小的非常缓慢，或是根本

／ｆｉ冉减小了，而此时网络的实际输出与期望输出还有很大的误差，如图２．３所示，预测数据与期望输出相差悬殊，这种情况就是陷入了局部极小点。导致这种现象的原因是出于网络采用的激活函数是一种非线性的函数，这个函数激活后的值是全局误差的输入，因此导致全局误差会存在多个极小值，而网络收敛时很有可能陷入其中的某一个而不是全局的最小值，如图２．４所示

全局最小值点

图２．４多个极小值点的连接权空间

若仞始时在ａ或ｃ点的位置，网络误差按梯度下降法调整，就只能达到局部极小值点，而若在ｂ点开始的才能达到全局最小值点。所以要设法使收敛过程跳过局部极小值点。

３．网络结构选择困难

本实验的网络结构由多次实验试凑得到，在进行试凑的过程中发现网络过大时，在训练中效率不高，而且还会由于过度拟合造成网络性能脆弱，容错性下降，浮点溢出；而太小的网络可能根本不收敛。在实际应用中，网络结构人为性较大，缺乏规则指导。

２．４

ＢＰ算法的改进措施

２．４．１已有的ＢＰ算法的改进措施及方法

现存的ＢＰ算法改进是从改进上面三个方面出发的，它们中有的是加快了学习速度，有的是避开了局部极小值。算法改进的出发角度也不同，大体可以分两类：一类是基于梯度下降法的改进，如动态算法、弹性ＢＰ算法等；

１５

(20)

哈尔滨Ｉ：稃人学硕士学位论文

另一类是基于数值计算的改进，如最ｄ＂－乘拟合法、牛顿法，ＬＭ算法等。

这些算法很难说出哪一种更优秀，只是适用于不同的环境条件，具体使用时还需要有仿真测试。

（１）附加动量法１１３Ｊ

当用ＢＰ算法训练网络时，７７越大，权重改变越大，但是，如果权重改变过人，学习过程中会出现振荡而不收敛；权重过小，可能使网络不能收敛到全局最小。为了避免这一现象，可采用附加动量项的方法，其具体做法是：

将上一次权值调整量的一部分迭加到按本次误差计算所得的权值调整量上，

以作为本次的实际权值调整量。

（２）带动量项自适应变步长算法

这种算法是针对定步长的缺陷提出来的，即学习步长随误差曲面的变化而进行调整。由于ＢＰ网络的误差曲面的梯度变化是不均匀的，若采用定步长，当卵较小时，在误差曲面较平坦的区域收敛较慢，而若较大时，又会在峡谷区域引起振荡，所以需要调整每次的步长。该算法连续两次观测训练的误差值，如果误差下降则增大学习率，误差反弹在一定范围内则保持步长，

误差的反弹超过一定限度则减小学习率。

（３）高阶导数的利用

标准ＢＰ算法只考虑一阶导数，如果考虑到高阶导数，则可以加快收敛速度，但高阶导数本身的计算很繁琐。

（４）Ｌ－Ｍ算法

又称为阻尼最小算法。该算法是在高斯牛顿法和最速下降法之间进行平滑调和，在远离最小值时逐渐切换到高斯牛顿法。增加了算法的稳定性。

２．４．２适用于证券预测技术的改进的ＢＰ算法

针对实验中的缺点，本文打算从两方面进行改进：

一方面是对实验数据进行预处理，从而将股票的连续变量进行离散化处理，增强变量间的相关性，提高预测精度；

另一方面就是确定最优神经网络模型，由于遗传算法具有强大的并行计算和全局搜索能力，将其与神经网络结合，实现快速确定优化的网络结构和权值，来改进神经网络收敛速度慢、易陷入局部极小值等缺点。

１６

(21)

哈尔滨。Ｉ：程火学硕十学位论文

２．５本章小结

本章阐述了神经网络的基本理论和ＢＰ神经网络算法的思想，说明了Ｍａｔｌａｂ语言利用神经网络工具箱进行仿真的具体过程，并用实际证券数据进行实验，分析实验结果得出用ＢＰ算法进行预测的缺点，结合已有的改进方

法提出了本文所采用的新方法——数据预处理和遗传算法优化神经网络模

型。

１７

(22)

第３章基于证券预测的数据预处理技术研究

３．１引言

现实世界的数据一般是含噪声的ｉ不完整的和不一致的。数据预处理技术叮以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。由ｉ｝：岛质量的预测必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据并归约待分析的数据，将在预测过程得到高回报Ｉｌ引。

我们用神经网络进行预测时，要精选网络的输入量，才可以更深入的把握股价的变化趋势。这是由于ＢＰ网络系统是非线性的，初始值的选取，与学习是否到达局部最小，甚至学习是否能收敛有着密切的联系。对于输入样本，希望能够进行归一化，使那些比较大的输入落在神经元激活函数梯度较大的区域。

因此，输入样本的选取原则是必须进行初始化处理。考虑到数据预处理可以将ｎ种不同量纲的数据全部归一为一１到１之间的数据，并改变数据间的相关性，便于进行数学处理，能够提高预测的精度，所以在预测之前进行预处理，是很必要的。

３．２网络训练样本集的准备

训练样本集数据的准备工作是网络设计与训练的基础，数据选择的科学合理性以及数据表示的合理性对于预测具有极其重要的影响。数据准备包括

原始数据的收集、数据分析、变量选择和数据处理等诸多步骤。

一个待建模系统的输入一输出就是神经网络的输入输出变量。一般来讲输出量代表系统要实现的功能目标，其选择相对容易一些，在时间序列预测中更为明确就是待预测的未来某时刻或某一些时刻的值。对于输入量的选择来说，在一般的神经网络中，对于非时间序列的预测，必须选择那些对输出影响大且能够检测或提取的变量并且同时要求各输入变量之间互不相关或相关性很小，对于这样的系统，神经网络将更为突出地显示它的优势；而在对

１８

(23)

哈尔滨Ｔ程大学硕十学位论文

时间序列的预测中，输入量的选择就变得相对简单，关键在于选择多少个过去观测值作为预测网络的输入刊‘更为恰当。

对股市未来趋势进行预测的基础是股市中大量的历史数据，主要有每日丌盘价、收盘价、最高价、最低价、成交金额和成交量等。尽管这些数据简单，易看易懂，但实验表明直接利用这些数据作为输入输出进行预测是困难的，因为这些数据不直接反映股市的内在规律，而且会使神经网络结构变得过于庞大，训练时间也长得难以接受。主要原因在于股票市场本身所具有的高噪声，高度非线性和股民投资的相对盲目性，使得这些数据中除了隐藏着其本身的规律以外，还存在更多的干扰因素，因而对股票数据规律性的寻找就变得十分困难。但是经济学家告诉我们，股市的变化看似漫无规则，实际

完全由供求关系决定，完全有规律可寻。

本文的实验数据采用Ｓ深发展２００６年３、４季度Ａ股历史交易数据（包括同期、开盘价、最高价、收盘价、最低价、交易量（手）和交易金额（万元））

作为实验数据，两组数据见附录Ａ，包括２００６年７月３日到１２月１５日期间１０５个同统计数据。部分历史交易数据如表３．１所示，实验中，以能反映股市行情的收盘价作为实验数据。

表３．１Ｓ深发展Ａ２００６年３季度部分历史交易数据

交易量交易金

日期丌盘最高收盘最低

（－ｙ－）额（万元）

２００６．０９—２９７．９６０８．２６０８．１６０７．９３０２６３７７１２１４５２．７２２００６．０９．２８８．０００８．０２０７．９５０７．８５０１５５７２３１２３５５．３０２００６。０９．２７７．５７０８．０８０８．０１０７．５４０２５３０６１１９９２２．８１２００６—０９．２６７．５７０７．６１０７．５７０７．５００６４１６０４８４４．４４２００６—０９．２５７．４２０７．６６０７．５９０７．４１０１０１７５５７６７５．０１２００６一０９—２２７．７２０７．８００７．４９０７．４００１６４１５４１２４４５．３０２００６．０９—２

１

７．６８０７．８３０７．７１０７．６８０１１０１９１８５３３．０７２００６．０９．２０７．７００７．７３０７．６８０７．６３０８４７４６６５００．１３２００６．０９．１９７．６２０７．８２０７．７１０７．５８０１５５５３２１２０２１．４１２００６—０９．１８７。７００７。７３０７．６２０７．５６０１１９２１６９０９８．８７

对于时间序列数据的预测，设有归一化的样本集ｘ（ｔ）（ｔ＝１，２，…，ｎ），

若进行一‘步预测时，选取ｍ个输入，１个输出，可组成如表３．２的训练组对：

１９

(24)

哈尔滨丁程大学硕十学位论文表３．２训练组对示意图

输入数据期望输出

Ｘ（１）Ｘ（２）Ｘ（ｍ）Ｘ（ｍ＋１）

Ｘ（２）Ｘ（３）Ｘ（ｍ＋１）Ｘ（ｍ＋２）

Ｘ（ｎ－ｉｎ）Ｘ（ｎ－ｍ＋１）Ｘ（ｎ－１）Ｘ（ｎ）

刚络训练好后，如要预测Ｘ（ｎ＋１）的值，只需把实际值Ｘ（ｎ．ｍ＋１），…，

ｘ（ｎ．１），Ｘ（ｎ）输入网络，其输出就是下一时刻的预测值Ｘ∽＋１），当要对Ｘ（ｎ

＋２）的值进行预测时，用实际值Ｘ（ｎ．ｍ＋２），…，Ｘ（ｎ一１），ｘ（ｎ），ｘ（ｎ＋１）作为输入数据，就可得到预测值ｊ∽＋２）；如果还没有实际值Ｘ（ｎ＋１），可把Ｘ（ｎ．ｍ＋２），…，Ｘ（ｎ．１），Ｘ（ｎ），Ｘ（ｎ＋１）作为网络的输入，其输出值即可视为Ｘ（ｎ＋２）的预测值Ｘ（ｎ＋２）。

３．３数据预处理的方法３．３．１常见的数据预处理方法

１．归一化处理

归一化处理是指通过变换处理，将输入网络的数据限制在【Ｏ，１】或【－１，

１１区问内。进行归一化处理的主要原因是：网络的各个输入数据常常具有不同的物理意义和不同的量纲：ＢＰ网络的神经元均采用Ｓ型激励函数，变换后日Ｊ．防止凶净输入的绝对值过大而使神经元输出饱和，继而使权值调整进入误差曲面的平坦区。

常用的归一化处理可使输入数据的取值落在【Ｏ，１］１＿又＂ｆＥ之内，转换公式为：

ｘＯ）。磊ｄ丽（ｔ）－丽ｍｉｎ（ｄ（ｔ））

ｍａｘ川Ｕ＂一ｍｍ∽Ｕ＂ ^{（３．一１）}

化．、

其中，Ｘ（ｔ）为网络的输入。

用训练好网络输出预测值后，要对输出数据进行反归一化处理，其公式

为：

(25)

哈尔滨上程人学硕士学位论文

ｙＯ）＝“Ｏ）木（ｍａｘ（ｄ（ｔ））一ｍｉｎ（ｄ（ｔ））＋ｍｉｎ（ｄ（ｔ）） _{（３．２）}

其中，ｕ（ｔ）为网络的输出。

归一化在神经网络数据预处理中是很必要的ｊ实验尝试采用没有进行归一化处理的原始数据进行仿真，结果神经网络不收敛；而归一化处理后，网络收敛很快，效果很好。

２．主成分分析

主成分分析方法是现代多元统计分析方法中的一个基本的辅助分析方法。它通过恰当的数学变换，使新变量即主成分成为原变量的线性组合，并选取少数几个在变差总信息量中比例较大的主成分来分析对象。决策者可以应用这些主成分来独立分析问题，也可以与其他方法如回归分析方法结合使用，如主成分回归，来分析一些复杂的问题。在经济数据分析的应用中，主成分分析法有着广泛的用途。

对给定的包含ｎ个数据样本，ｐ个数据变量的样本数据矩阵：

Ｘ＝

印

ＸｌｌＸ１２

Ｘ２１Ｘ２２

Ｚ＾１Ｘｎ２

－＆。，土：，ｚ。，…，石尹）

（３－３）

由于各个向量ｚ；之间具有相关性，特别是样本数据规模很大时，增加了样本内部错综复杂的关系，也增加了系统分析决策者处理的难度。所以高维数据的降维、数扼｝内部之Ｊ’日Ｊ的去相关性就成为宏观数据分析的基本前提和要求。

如果ｐ个决策变量（或指标）的大部分变量能够有它们的ｒ个（比ｐ小得多）所渭“综合指标”（特殊的线性组合）来概括，那么，由ｐ个变量的１１次观测组成的数据就可以简化为ｒ个“综合指标”的ｎ次观测数据。

因此，应该寻找ｒ个变量（新指标）Ｙｌ，Ｙ：，．．．，Ｙ，（ｒ ^ｓＰ）使得：

（１）Ｙｆ是Ｘ的线性函数Ｙ，＝ａｌｌＸｌ＋ａ１２ｘ２＋…＋ａｌｐＸｐ，Ｚ＝Ｇ２，．．．，，．）；

（２）Ｃｏｖ（ｙ，，Ｙｊ）；Ｏ，ｆ≠Ｊ，即要求Ｙ。，Ｙ２，．．．，Ｙ，彼此不相关，之间尽可能不包含重复冗余的信息；

２１印印

妒石Ｘ

Ｘ

●

(26)

哈尔滨Ｔ程大学硕十学位论文

（３）要求Ｄ（ｙ；）尽可能大，即ｙ，能充分反应ｘ』的变化情况。

因此，对于Ｙｊ，Ｙ：，．．．，Ｙ，的求解，可以采用统计学中的主成分分析方法来处理，即求得Ｙ，ｚａ／ｊｘｌ＋ａ／２ｘ２＋…＋ａｔｔ，ｘ口，ｌ＝（１，２，．．．，，．）为样本数ｘ（，ｌ×Ｐ阶）的

第，个主成分。这样得到的Ｙｌ，ｙ：，．．．，Ｙ，均称为Ｘ的主成分。以上提出的三点就是构造主成分表达式的基本思想。主成分分析的计算步骤可以概括为：

（１）设有数据集中ｎ个样本，每个样本对Ｐ个指标进行观测，用ｚ—ｓｃｏｒｅ力＂法对样本数据矩阵元素进行标准化：

ｚ玎２％一ｚ』）／ｓ，

_{（３．４）}

其中‘＝（轴ｍ，ｓ；＝击（孙一‘ｙ

（２）建立样本数据矩阵元素的相关矩阵Ｒ：

Ｒ＝（ｋ）肿

_{（３．５）}

其中‰＝ｊ１扣∥一‘例ｋ一磊川

（３）求相关系数矩阵Ｒ的特征矩阵＾≥Ａ：≥…苫Ａ，及相应的单位特征向量：

设＾２Ａ：≥…乏ＡＰ是Ｒ的特征值，Ａ＝＠｛『）Ｐ。ｐ是对应的特征向量矩阵，并

满足尺４＝＾４，其吼＝０ｆｌ＇口ｆ２＇…，口驷），则ｂ，，＝口ｆｌ一＋口，２石２＋…＋口加～就是第ｚ个主成分值（这里ｘｔ，ｘｚ，．．≯Ｐ为标准化值），九／∑Ａ，为第ｉ个主成分的贡献率，

ｙＡ，／ｙ

Ａ，为前ｉ个主成分的累积贡献率。

留。箭’

（４）写出主成分的表达式：

(27)

哈尔滨一Ｉ：程大学硕＋学位论文

，，。口ｆｌ石ｌ＋口心ｚ２＋川＋口驷ｚ．Ｐ（３．６）

利用主成分分析是找到几个综合因子代表原来众多的变量，使这些综合因子能尽量反映原来变量的信息，而且彼此之间不相关。本实验中的数据是时间序列的数据，不存在信息的重叠和相关，所以不采用主成分分析的方法。

３．３．２证券预测中数据预处理的新方法

分析本实验数据自身的特点，在实践中发现一种新方法：当把原始数据进行归一化处理前，对原始数值进行自身乘方变换，不改变其符号，再来进行归一化后输入网络训练或预测，最后对网络的输出进行反方向的逆处理即可。由于该自身乘方变换是非线性的，其结果不仅压缩了数据变化的范围，

而且改善了其分布规律，使原始数值之间的差距加大，改变了原始数值之间的相关性，如果数据之间的相关性会增大，就会提高预测的精度。

具体如下：设原始数据集为Ｘ，其中的所有元素为：毛，岛，．．．，ｘ。，对每一个元素的数值进行ｍ次方处理，即把薹的数值变换为Ｆ，但不改变其符号，再采用尺寸变换的方法进行归一化处理，得到财：ｌＩ。网络输出后进行反归一化处理，得到Ｙ；ｍ，再对结果的数值进行开ｍ次方处理（同样不改变其符号），得到Ｙ；。ｍ为一正数，当ｍ＝１时即为原来的方法，当ｍ＞１或ｍ＜ｌ时，使原始数值之间的差距加大，改变了原始数值之间的相关性，如ｍ的值选择恰当，数据之间的相关性会增大，神经网络对它的拟合好，预测误差就

会减小，反之，会增人误差，因此要合理选择ｒｎ的值。

参数ｍ大小的选择成了数值预处理方法成败的关键，就像选取神经网络模型输入输出结点数一样没有一个一致的最优值，本实验采用试凑的方法来确定，ｍ取刁ｉ同值，输入数据不变，采用固定的网络模型，固定训练步数（１００００步）和目标误差（０．００１）来训练网络，比较不同取值的ｍ对预测结果的影响（如表３．３所示），从而找到最适合的ｍ值。

(28)

哈尔滨工程大学硕＋学位论文

表３．３不同ｍ值对应的不同ＭＳＥ值

序号ｍ值ＭＳＥ序号ｍ值ＭＳＥ

１０．００００１０．００７６３２６６１１

４

０．００３８３６０６

２０．０００１０．００７６３２５５１２５０．００２３６５７８

３０．００１０．００７６３２５１１２６０．００３０８２１８

４

Ｏ。０１０．００７６３１０１１３

^７

Ｏ．００３８８０１

５０．８０．００７４０７６１４８０．００３７１６９６

６０．５０．００７５３１５４１５９０．００３５３３９５

７

０．１

^“

０．００７９４７０１１６１００．００３１８１９８

８

１

０．００７２９７６２１７１５０．００３３０４９９

９

２

０．００６５５５２９１８２００．００３３８６４３

１０３０．００５６２１７５１９３００．００４０７２４９

实验发现运行时间与ｉｎ的取值大小没有必要的联系，但对网络性能有影响，当ｍ＜ｌ时，作用不大；ｍ＞ｌ时，网络性能明显提高。所以ｒｎ应该根据不同的网络结构和训练样本，采用试凑法来确定选取适合的值。通过表３．３很明显发现，当ｍ＝５时，ＭＳＥ最小，所以本文的数据预处理时的ｍ取值为５。

３．４数据预处理仿真试验３．４．１数据归一化

下面对数据进行归一化处理，并采用未改进的ＢＰ网络进行实验，网络的输入结点数为７，隐层结点的个数为１６，训练函数为ｔｒａｉｎｇｄ，对７０个训练样本进行仿真。训练到１００００步时达到了均方误差达到０．００８１６１８６，如图３．１所示。图３．２上部分是前１．３５样本的回归曲线图，下部分是后３６．７０样本的回归曲线图。很明显，对于同一个训练好了的网络，后３５个样本的误差明显比前３５小，这是样本自身的特点决定的。图３．３为７１．９８样本的预测曲线图，其中“＋”表示实际数据，“ｏ”表示预测数据。可以看出虽然预测误差很大，

但对比未进行数据预处理的预测（图２．３），已有很大改善。

(29)

图３．２１．３５和３６．７０样本的回归曲线图

ｌ ^ｊ

．Ｌ～．．

^．

(30)

图３．３７１．９８样本的预测曲线图

３．４．２数据自身乘方变换后归一化

下面是采用与前面同样的ＢＰ网络结构和训练函数进行仿真，所不同的是对实验数据用证券预测数据预处理的新方法，即数据进行自身ｍ＝５次乘方变换后，再对数据进行归一化处理后所得到的样本回归曲线图和预测曲线图。

比图３．２和图３．３数据没经过自身乘方变换的有所改进。

图３．４数据预处理后的１．７０样本回归曲线

(31)

哈尔滨下程大学硕十学位论文

３．５本章小结

图３．５数据预处理后的预测

本章首先分析了进行数据预处理的必要性，并说明了本实验数据的来源，

接着介绍了两种数据预处理的方法：归一化方法和主成分分析的方法。最后

结合本实验的具体数据，提出一种新的数据预处理方法——数据自身乘方变

换后归一化。并仿真验证了该数据变换的有效性，但是预测误差还是很大。

下面一章采用遗传优化后的神经网络模型来预测经过预处理的数据，进一步提高预测的精度。

２７

(32)

第４章基于ＧＡ—ＢＰ算法证券预测模型的研究

４．１遗传算法概述

遗传算法（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ，ＧＡ）研究的历史比较矧１４１，２０世纪６０年

代末期到７０年代初期主要由美国Ｍｉｃｈｉｇａｎ大学的ＪｏｈｎＨｏｌｌａｎｄ与其同事、

学生们研究形成了一个较完善的理论和方法，首次明确提出遗传算法的概念，

Ｈｏｌｌａｎｄ创建的遗传算法，是基于二进制表达的概率搜索方法。在种群中，根据评价条件，概率选择适应性好的串进入下一代，通过信息交换重新组合新串，经过多代进化，种群最后稳定在适应性好的串上。遗传算法作为一种计算方法，对求解的问题本身一无所知，Ｈｏｌｌａｎｄ最初研究的遗传算法也并不是为解决特定的问题而设计的。由于遗传算法的特点是种群搜索和种群中个体之间交换信息，搜索不依赖于梯度信息和问题本身，具有鲁棒性和全局搜索的能力，所以，常常应用于优化和并行处理领域。进入２０世纪９０年代，随着计算机技术的高速发展，遗传算法在各个领域得到了广泛的应用，新的遗传算法有的对给定问题的搜索空间采用了更自然的表达方式，有的采用了更适合具体问题的遗传运算。

遗传算法（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ）是模拟生物界的遗传和进化过程而建立起来的一种搜索算法，体现着生存竞争、优胜劣汰、适者生存的竞争机制【１５】。

基本思想是从一组随机产生的初始解，即种群，开始进行搜索，种群中的每一个个体，即问题的一个解，称为染色体；遗传算法通过染色体的适应值来评价染色体的好坏，适应值大的染色体被选择的几率高，相反，适应值小的染色体被选择的可能性小，被选择的染色体进入下一代；下一代中的染色体通过交叉和变异等遗传操作，产生新的染色体，即后代；经过若干代之后，

算法收敛于最好的染色体，该染色体就是问题的最优解或近优解。

作为一种数学算法，遗传算法本身是没有物理意义的，如何有效地利用遗传算法解决实际问题，达到满足实际应用需要的精度，一方面，要合理选择编码方法、遗传算子、进化算子和有关参数；另一方面：要深入实际问题，

合理地将问题概化为遗传算法能够有效解决的模型，有时还需要根据实际问

(33)

题设计具体的编码方法和遗传算子。

遗传算法的一般流程ｆ１６】如图４．１所示。

图４．１遗传算法的流程图遗传算法的运行过程可用如下步骤进行表述：

‘（１）随机产生初始种群，个体数目一定，每个个体表示为染色体的基因编码；

（２）计算个体的适应度，并判断是否符合优化准则，若符合，输出最佳个体及其代表的最优解，并结束计算；否则转向３；

（３）依据适应度选择再生个体，适应度高的个体被选中的概率高，适应度低的个体可能被淘汰；

（４）按照一定的交叉概率和交叉方法，产生新个体；

（５）按照一定的变异概率和变异方法，产生新个体；

（６）由交叉和变异产生新一代的种群，返回（２）；

遗传算法可以归纳为两种运算过程：遗传运算（交叉与变异）与进化运算

（选择）。遗传运算模拟了基因在每一代中产生新后代的繁殖过程，进化运算则是通过竞争不断更新种群的过程。

４．２遗传算法的优点

遗传算法提供了一种求解复杂系统优化问题的通用框架，是适用于复杂

(34)

系统优化计算的搜索算法。本文采用遗传算法优化神经网络，由于遗传算法与其他一些优化算法相比，主要有以下几个特点：

（１）遗传算法以决策变量的编码作为运算对象。传统的优化算法往往直接以决策变量的实际值本身来进行优化计算，而遗传算法是以决策变量的某种形式的编码为运算对象。这种对决策变量的编码处理方式，使人们在优化计算过程中可以借鉴生物学中染色体和基因等概念，模仿自然界中生物的遗传和进化等机理，也可以方便地应用遗传操作算子。特别是对一些无数值概念或很难有数值概念，而只有代码概念的优化问题，编码处理方式更显示出

了其独特的优越性。

（２）遗传算法直接以目标函数值作为搜索信息。传统的优化算法不仅需要利用目标函数值，而且往往需要目标函数的导数值等其他～些辅助信息才能确定搜索方向。而遗传算法仅使用由目标函数值变换来的适应度函数值，就可确定进一步的搜索方向和搜索范围。而且，直接利用目标函数值或个体适应度，也可以把搜索范围集中到适应度较高的搜索空间中，从而提高搜索效

率。

（３）遗传算法同时使用多个搜索点的搜索信息。传统的优化算法往往是从解空间中的一个初始点开始最优解的

(35)

论成果。神经网络相当于一个专家系统知识库，它能够自动在海量数据中识别、捕捉和提取隐藏规律，并将其包含在神经元之间的连接权值中。遗传算法具有全局搜索、收敛速度快的特点，将其与神经网络结合起来，不仅能发挥神经网络的泛化映射能力，而且使神经网络克服收敛速度慢和容易陷入局部误差极小点等缺点。由于它们极强的解决问题的能力，近年来引起了众多的科研人员和工程人员的兴趣和参与，如何将两者的优点结合起来解决实际问题己成为国内外学术界十分热门的研究课题【”～９１。

在神经网络预测领域，ＢＰ模型是使用的较为成熟且较为有效的一种神经网络模型，但是还是很不完善的，存在一些问题，诸如容易陷入到局部极小值、收敛速度慢、网络结构和学习参数难以确定等。在第３章中已经提出一些算法来改进，取得较好的效果，针对其局部收敛性，需要寻找一种较好的具有全局收敛性的优化方法来加以改善。而ＧＡ是一个不受具体问题限制的比较普适的优化算法，有较大概率收敛到全局最优解，或性能很好的次优解，

因此它非常适合于解决ＢＰ模型的局部收敛性问题，同时它还可以优化神经网络的结构和连接权系数，这就满足了求得最优ＡＮＮ的必要条件。因此将ＡＮＮ与ＧＡ有机结合，充分利用它们各自的优点并克服其不足，从根本上提

高神经网络解决问题的能力，具有十分重要的意义。

由此，本文提出了ＧＡ．ＢＰ算法，其基本思想是：首先，利用遗传算法有指导地计算神经网络的结构，特别是隐层结点数，从而确定一个较合理的神经网络结构【２仉２１１；其次，利用遗传算法从初始权值的解群中选取出一组优秀的初始权值，克服初始权值选取的盲目性：最后将得到的神经网络结构和优选的初始权值结合起来，利用改进ＢＰ算法进行股市行情的预测。

４．３．１遗传算法优化神经网络结构的算法

应用遗传算法可以搜索到最佳的神经网络结构。常用的神经网络有三到四层。且采用越多的中间层，训练时间就会急剧增加，另一方面中间层增加后，局部最小误差也会增加，网络在训练过程中，容易陷入局部最小误差，

网络的权重难以调整到最小误差处。遗传算法优化网络结构流程图如图４．２所示。

具体过程如下：

３１

基于神经网络和遗传算法的证券预测技术的研究

『ＩＩＩＩＩｌＩＩＩＩＩＩＩＩＩＩＩＩＩＩＭＩｒｌ ＩＩＩＩＩｌＩ＋Ｈ＋ＩＩＩｌ

Ｙ１ ４３７２７２

分类号：——

Ｕ Ｄ Ｃ：

工学硕士学位论文

（高校教师）

密级：——

编号：——

基于神经网络和遗传算法的证券预测 技术的研究

硕士研究生 ：苏丹

指导教师 ：蔡绍滨教授

学位级别 ：工学硕士

学科、专业 ：计算机应用技术

所在单位 ：黑河学院

论文提交日期：２００７年４月２日

论文答辩日期：２００８年３月２日

学位授予单位：哈尔滨工程大学

摘 要

Ａｂｓｔｒａｃｔ

Ｆｏｒｅｃａｓｔｉｎｇ ｉｓ

ｌｉｎｋ

ｍａｎａｇｅｍｅｎｔ ａｎｄ ｐｒｅｍｉｓｅ ｂｅｆｏｒｅ

ａｎｄ ｌａｙｏｕｔ．Ｉｔ ｉｓ

ｏｆ

ｓｙｓｔｅｍｓ．Ａｎｄ ｓｔｏｃｋ

ｉｓ

ｆｕｎｃｔｉｏｎ ｉｓ

ｏｎｌｙ ｖａｌｕｅｄ ｂｙ ｔｈｅ

ｂｕｔ ａｌｓｏ

ｂｙ ｉｎｖｅｓｔｏｒｓ．

Ａｒｔｉｆｉｃｉａｌ ｎｅｕｒａｌ ｎｅｔｗｏｒｋ ｉｓ

ｏｆ ａｒｔｉｆｉｃｉａｌ

ｗａｓ

１ ９４０ｓ ａｎｄ ｈａｓ ｂｅｅｎ ｗｉｄｄｙ ａｐｐｌｉｅｄ

ｆｉｅｌｄｓ ｎｏｗ．Ｎｅｕｒａｌ

ｐｒｅｅｎｉｎｇ

ｋｎｏｗｌｅｄｇｅ，ｗｈｉｃｈ ｉｓ

ｔｈｅｏｒｅｔｉｃａｌ

ｔｈｅ ｆｕｔｍ＇ｅ．Ａｓ ｆｏｒ

ｓｅｒｉｅｓ

ｎｅｔｗｏｒｋ ｉｓ

ｐｒｅｃｉｓｅ

ｍａｔｈｅｍａｔｉｃａｌ

ｇｒｅａｔ ｓｅａｒｃｈｉｎｇ

ｓｏｌｖｅ ｍａｎｙ

ｏｔｈｅｒ ａｌｇｏｒｉｔｈｍｓ

ｄｏ．ＧＡ

ｗｉｔｈ

ｉｍｐｒｏｖｅｄ

ｃａｐａｂｉｌｉｔｙ ｏｆ ｔｈｅ ＡＮＮ ｇｒｅａｔｌｙ．Ｔｈｅ

ｄｅｖｅｌｏｐ ｒａｐｉｄｌｙ． Ｓｏ，ｓｔｕｄｙｉｎｇ ｔｈｅ ｔｗｏ

ｉｓ

Ｔｈｉｓ ｐａｐｅｒ

ｗｉｔｈ ｔｈｅ ｂａｓｉｃ

ｏｆ ＧＡ．Ｔｈｅ

ＧＡ－－ＢＰ

ａｌｇｏｒｉｔｈｍ

ｓｐｅｃｉａｌｉｔｙ ｏｆ ｓｔｏｃｋ ｍａｒｋｅｔ，ａｎｄ ａｌｓｏ ｔａｋｅｓ ｔｈｅ

ｏｆ

ＢＰ

ｔｈａｔ ｉｎｃｌｕｄｅｓ

ｓｌｏｗ

ｓｐｅｅｄ

ｌｏｃａｌ

ＧＡ一－ＢＰ

ｔｈｅ

ｏｆ

ｗｈｏｌｅ

ｓｅａｒｃｈ．Ｔｈｅ ＧＡ ｐａｙｓ

ａｌｓｏ

ｒｅｌａｔｉｖｅｌｙ ｈｉｇｈ ｐｒｅｃｉｓｉｏｎ．Ｉｔ ｗｉｌｌ

ｇｅｔ

ｌｏｃａｌ ｅｘｔｒｅｍｕｍ．Ｔｈｅ

ｗｈｏｌｅ ｓｐａｃｅ

ｉｍｐｒｏｖｅ

ａｎｄ ｐｒｅｃｉｓｉｏｎ．Ｔｈｅｏｒｅｔｉｃａｌ

ｒｅｓｕｌｔｓ ｓｈｏｗ

ｔｈｅ

ｏｆ ｓｔｏｃｋ

『ＩＩＩＩＩｌＩＩＩＩＩＩＩＩＩＩＩＩＩＩＭＩｒｌＩＩＩＩＩｌＩ＋Ｈ＋ＩＩＩｌ

Ｙ１４３７２７２

ＵＤＣ：

基于神经网络和遗传算法的证券预测技术的研究

硕士研究生：苏丹

指导教师：蔡绍滨教授

学位级别：工学硕士

学科、专业：计算机应用技术

所在单位：黑河学院

摘要

Ｆｏｒｅｃａｓｔｉｎｇｉｓ

^ｌｉｎｋ

ｍａｎａｇｅｍｅｎｔａｎｄｐｒｅｍｉｓｅｂｅｆｏｒｅ

ａｎｄｌａｙｏｕｔ．Ｉｔｉｓ

ｓｙｓｔｅｍｓ．Ａｎｄｓｔｏｃｋ

ｆｕｎｃｔｉｏｎｉｓ

ｏｎｌｙｖａｌｕｅｄｂｙｔｈｅ

^{ｂｕｔａｌｓｏ}

ｂｙｉｎｖｅｓｔｏｒｓ．

Ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｉｓ

ｏｆａｒｔｉｆｉｃｉａｌ

１９４０ｓａｎｄｈａｓｂｅｅｎｗｉｄｄｙａｐｐｌｉｅｄ

ｆｉｅｌｄｓｎｏｗ．Ｎｅｕｒａｌ

_{ｐｒｅｅｎｉｎｇ}

ｋｎｏｗｌｅｄｇｅ，ｗｈｉｃｈｉｓ

ｔｈｅｆｕｔｍ＇ｅ．Ａｓｆｏｒ

^{ｎｅｔｗｏｒｋ} ｉｓ

_{ｐｒｅｃｉｓｅ}

ｇｒｅａｔｓｅａｒｃｈｉｎｇ

ｓｏｌｖｅｍａｎｙ

ｏｔｈｅｒａｌｇｏｒｉｔｈｍｓ

ｃａｐａｂｉｌｉｔｙｏｆｔｈｅＡＮＮｇｒｅａｔｌｙ．Ｔｈｅ

ｄｅｖｅｌｏｐｒａｐｉｄｌｙ．Ｓｏ，ｓｔｕｄｙｉｎｇｔｈｅｔｗｏ

^ｉｓ

Ｔｈｉｓ _{ｐａｐｅｒ}

ｗｉｔｈｔｈｅｂａｓｉｃ

^{ｏｆＧＡ．Ｔｈｅ}

^{ＧＡ－－ＢＰ}

ｓｐｅｃｉａｌｉｔｙｏｆｓｔｏｃｋｍａｒｋｅｔ，ａｎｄａｌｓｏｔａｋｅｓｔｈｅ

^ｏｆ

ｔｈａｔｉｎｃｌｕｄｅｓ

^{ｓｐｅｅｄ}

^ｔｈｅ

ｓｅａｒｃｈ．ＴｈｅＧＡｐａｙｓ

^ａｌｓｏ

ｒｅｌａｔｉｖｅｌｙｈｉｇｈｐｒｅｃｉｓｉｏｎ．Ｉｔｗｉｌｌ

ｌｏｃａｌｅｘｔｒｅｍｕｍ．Ｔｈｅ

ｗｈｏｌｅｓｐａｃｅ

_{ｉｍｐｒｏｖｅ}

^ａｎｄｐｒｅｃｉｓｉｏｎ．Ｔｈｅｏｒｅｔｉｃａｌ

ｒｅｓｕｌｔｓｓｈｏｗ

ｏｆｓｔｏｃｋ

ｕｓｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｉｓｆｅａｓｉｂｌｅ

ｈａｓｆａｖｏｒａｂｌｅｆｏｒｅｇｒｏｕｎｄ．Ｉｔｉｓａｌｓｏ

ａｎｄｃｒｅｄｉｂｉｌｉｔｙ．

Ｋｅｙｗｏｒｄｓ：ｓｔｏｃｋ

ＮｅｕｒａｌＮｅｔｗｏｒｋ；

哈尔滨工程大学学位论文原创性声明

作者（签字）：苏丹

“集聚效应”提出的，ＡＲＣＨ类模型采用时变的条件方差来捕捉价格波动的时变性和序列相关性，但由于ＡＲＣＨ模型将条件方差定义为过去观测值的平方

１．４论文的主要内容及创新点１．４．１主要内容

^{Ｎｅｕｒａｌ}

Ｙｊ－２ｆ（弘ｙ；Ｉ－０ｊ）＝ｆ（耋叩吡印ｊ∈｛１，２，…ｎ：】－（２－１）

Ｙ：＝ｆ（∑％Ｙｊ。吼）ｋ∈｛１，２…．ｍ）（２－２）

６ｋ＝（Ｔｋ－Ｙ

６ｊ＝ＹＪ・，‘１－Ｙ’’・荟６Ｉ・∞ｊｋ（２－４）

^６ｋＹ’

^６ｊｙｉ

用的时间序列分析法主要是建立自回归模型Ｏ娘）、移动平均模型（ＭＡ）、自动回归——移动平均模型（ＡＲＭＡ）和齐次非平稳模型（ＡＲＩＭＡ），其中ＡＲＩＭＡ是

１１＂ｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉ葺ｉｉｉｉｉｉｉｉｉｉｉｉｉｉｉ宣２．３．２基于ＢＰ算法的证券预测技术的性能分析

３．３数据预处理的方法３．３．１常见的数据预处理方法

满足尺４＝＾４，其吼＝０ｆｌ＇口ｆ２＇…，口驷），则ｂ，，＝口ｆｌ一＋口，２石２＋…＋口加～就是第ｚ个主成分值（这里ｘｔ，ｘｚ，．．≯Ｐ为标准化值），九／∑Ａ，为第ｉ个主成分的贡献率，

ｙＡ，／ｙ

１０．００００１０．００７６３２６６１１

２０．０００１０．００７６３２５５１２５０．００２３６５７８