采用动力特征的替代数据法概述

时间: 2014-02-19 编号：sb201402191638 作者：merry
类别：硕士论文行业：工业产业字数：25648 点击量：758
类型: 收费费用: 0元

本站提供专业的[留学生论文]定制业务，如需服务请，联系电话：13671516250.

文章摘要：
本文通过将 Thiel 提出的基于 RP 提出的重构时间序列的方法应用于产生替代数据，同时考虑噪音数据的概率分布，提出一种新的替代数据算法——现代实现法。

本论文是理学硕士论文，主要对替代数据算法—现代实现法应用于扩大样本数据量的解决办法进行研究。

第 1 章绪论

1.1 课题背景及课题来源

现在，替代数据已经在诸多领域中使用。之前，替代数据是使用于时间序列中检验非线性成分的方法中，然而，这里说的替代数据是对所观测数据的分析，并且结合一些理论方法，然后产生的一种数据。虽然这种检验方法已经得到广泛应用，但对其中的替代数据算法的研究，国内外并没有停止研究。但是这个替代数据只是用于检验时间序列的某些特征，并没有用于真正作为观测数据的样本的扩充数据。同时，对于这种实验中的原始数据样本容量太少，这样的问题并没有给予考虑。如何将“替代数据”应用到扩充样本容量的问题上，是本文所要考虑的应用范围。

1.1.1 课题背景

现在，科学理论通过科学实验得到了实践，并且这种科学实践在科学研究中是论证的过程。但目前很多高端的科学实验的实验成本太高，这里所谓的实验成本不仅仅是金钱上的，还有人力，同时还具有很高的危险性，甚至涉及到生命安全。例如医学上的新的医疗技术想要从实验室走出，进入到临床实验阶段，这个阶段的实验成本就很高了。不仅耗时而且在金钱方面也浪费许多。一种新的药品想要真的进入医院成为正式的治疗药品，需要做很多次的临床试验。通过临床试验得到的数据，再进行反复的分析，才能够作为正式成为治疗药品的临床治疗成功依据。但这需要有大量的实验为基础，才能够得到成为理论依据的实验数据，并且同时需要足够作分析的数据量才可以进行分析、进而从中总结出结论。再比如要检测母婴胎儿心电的检查，这样的检查不能够多次进行，但是要有足够可以分析母婴胎儿健康检查的数据，却需要对孕妇做反复的检查。这样的例子太多了，在工业生产中，为了解决实验成本高，样本数据量小的问题，科学家们一直都在想办法降低实验成本。本文主要研究的替代数据算法就是产生具有与原始数据一致动力特征的替代数据。产生的替代数据就可以作为原始数据的扩充数据，从而扩充了实验数据的数据量，为解决实验成本高，样本数据量小的问题提供理论支持。

1.1.2 课题来源

本文课题来源：人体心脏系统非线性动力特征技术研究及监护产品的研究，本项目是深圳市基础研究计划（重点项目）。

1.2 研究现状

目前，替代数据算法主要有两类算法，即，（1）传统实现法；（2）受限实现法。这些已有的算法，都是用于检验原始时间序列的。并且他们的产生数据，检验过程大体思路都是一致的，只是所用的理论依据和算法模式是不一样的，各有各的适合使用的研究范围。

1.2.1 替代数据检验方法

替代数据检验方法常应用于检验时间序列中的某些性质。比如说，对于某些随机信号的时间序列。即，检验它的平稳性，以及随机性的检验。替代数据检验方法由三个部分构成。具体的思想是这样的：首先，定义一个合适的零假设（即，反面假设）；其次，根据所要检验的性质，选择合适的替代数据算法来产生原始数据的替代数据；最后，通过相应的统计检验，来检验原始数据和其替代数据的统计量取值差异，通过差异比较来确定是否反对零假设。从而，我们可以判断原始数据是否具有与随机信号的某些性质。

1.2.2 传统实现法

传统实现法[1]是通过传统的自举方法产生数据。即，原始数据的替代数据。这种方法是要通过对原始数据的分析，从中找到产生替代数据的生产函数。传统实现法一般的反面假设是：假定原始数据是由独立同分布的随机变量产生。该方法的具体产生过程如下（1）至（4）：（1）首先分析原始实验数据的直方图，大体猜测原始实验数据服从的概率分布；（2）由（1）得到实验数据的概率分布函数。用这个函数产生一组随机数据，并作为待选数据；（3）再从这组随机数据的不同部分随机取出数据，直到使取出的数据最后和原始数据的数据量一致为止。这样重新组合的随机数据就可以作为原始实验数据的替代数据。（4）进行统计检验[2]。检验原始实验数据和其通过传统实现法产生的替代数据之间的差异。如果他们之间具有显著不同的序列相关性，于是就可以否定原假设。就可以说明原始数据不具有非线性，说明原始数据具有线性相关性。传统实现法是通过猜测原始数据的概率分布函数，通过这个概率分布函数来随机产生服从这个分布的随机数据，再从这些随机数据中抽取小段来构成原始数据的替代数据。通过传统实现法产生的替代数据只是在概率分布上与原始数据近乎一致。然而，替代数据有关原始数据的动力特征方面的性质却没有考虑。

1.2.3 受限实现法

基于传统实现法的理论方法，发现这个方法需要找到产生替代数据的生成函数。然而，受限实现法[3]则不需要。本节介绍的这个方法，则就是一种避免寻找替代数据生成函数的算法。受限实现法产生替代数据的方法主要是对原始实验数据进行相应重排，经过重排后的原始实验数据就是通过受限实现法产生的替代数据。受限实现法避免了传统实现法需要选择产生替代数据的分布函数，同时受限实现法生成的替代数据与原始数据本身就是一致的概率分布和非线性动力特征，并且可以产生与原始数据具有一致二阶统计特征的替代数据。但受限实现法在重排原始实验数据序列的过程中，需要在原始序列的基础上加上一个相应的结构变换方法，这个变换对受限实现法来说却是一个局限性。受限实现法已有的具体方法有 4 个。他们是：基于傅里叶变换替代数据算法[4]，遗传算法生成法[5]，伪周期替代数据算法[6]，Twins 替代数据算法[7]。

1.2.3.1 FT 替代数据算法

基于傅里叶变换的替代数据算法中，最早的算法是以傅立叶变换(Fourier Transform，FT)为基础的生成算法。 FT 算法[8]的具体生成方法如下：（1）首先对原始实验数据进行傅里叶变换；（2）使傅里叶变换的振幅保持不变；（3）然后随机地将傅里叶变换的相位打乱，这里的相位一般是服从独立均匀分布的随机相位，相位取值范围是[0,2]；（4）最后傅里叶反向变换已 FT 的原始实验数据，这样就产生其替代数据。 1.2.3.2 AAFT 替代数据算法为了解决 FT 替代数据算法在时间概率分布上的局限性。Theiler[2]等人提出以幅度匹配傅立叶变换(Amplitude Adjusted Fourier Transform，AAFT)为基础的改进的替代数据算法。AAFT 替代数据算法的具体生成方法如下：（1）首先要求原始实验数据服从正态分布；（2）用 FT 替代数据算法产生替代数据；（3）将（2）中产生的数据，使他们服从（1）中的概率分布。（4）通过（1）到（2）最后得来的替代数据，就是所要求得的替代数据。

1.2.3.3 IAAFT 替代数据算法为了克服 AAFT 替代数据算法中的功率谱方面的问题。Schreiber 和Schmitz 在文献[9]中提出了基于 AAFT 的改进的替代数据迭代算法。该算法被称为 Iterated-AAFT(IAAFT)替代数据算法。IAAFT 替代数据算法能够产生替代数据。并且这个产生得到的数据就是是与原始实验数据的概率分布、傅里叶频谱是一致的。

第 2 章现代实现法

2.1 引言

目前，替代数据算法主要有两类。即，（1）传统实现法；（2）受限实现法。其中，传统实现法是用观测数据来预测一个概率分布，然后从服从这个概率分布的时间序列里随机抽取小段来构成替代数据，这种方法只考虑替代数据与原始数据概率分布的一致性，没有考虑与原始数据的动力特征的一致性。受限实现法是对原始数据本身进行重排，同时产生的替代数据只是对原始数据的重排，所以也是一种对原始数据的“复制”，但所产生的替代数据缺乏随机性。这两种方法在实际应用中具有局限性。本文克服两类替代数据算法的局限性，提出另一种的替代数据算法——现代实现法。

第 3 章统计检验 ........ 30

3.1 引言 .......... 30

3.2 统计量检验 ..... 30

3.3 距离分析 ........ 34

3.4 本章小结 ........ 39

第 4 章现代实现法与 TWINS 替代数据算法的比较......... 40

4.1 引言 ........ 40

4.2 模拟数据与其替代数据的相空间重构 ........ 40

4.3 替代数据的波形 ......... 42

4.4 本章小结 ........ 45

结论

本文通过将 Thiel 提出的基于 RP 提出的重构时间序列的方法应用于产生替代数据，同时考虑噪音数据的概率分布，提出一种新的替代数据算法——现代实现法。本文的主要结论如下：本文分析了 Thiel 提出的基于 RP 提出的重构时间序列的方法中的待重排噪音数据的概率分布对产生替代数据质量是有影响的。于是本文分别从整体和分段角度来拟合原始数据的概率分布，并产生服从这种概率分布的随机噪音数据，将这种噪音数据作为现代实现法的待重排数据。发现，通过整体拟合得到的替代数据在整体波形的走势上和原始数据是一致的，但在部分的峰值上是不能跟上原始数据的；但从分段角度得到的替代数据，却避免了从整体角度的缺点；基于对原始数据概率分布函数的分析、拟合，做相应的统计检验。通过统计量检验，本文发现从整体和分段角度得到的替代数据均可以作为原始数据的替代数据，但是从分段角度得到的替代数据质量更好一些。基于统计量检验的结论，本文对原始数据和现代实现法分段得到的替代数据进行了距离分析，通过对 MIT-BIH vfdb 和 MIT-BIH cdb 中的几组数据的分析。本文发现通过现代实现法产生替代数据对原始数据的拟合程度非常高。

参考文献

[1] Ralf E. Testing for Nonlinearity：The role of Surrogate Data, Chaos, Solutions and Fractals [J]. Physical Review Letters, 2002, 13(1)：79-84．

[2] Theiler J, Prichard D. Constrained-realization Monte-Carlo Method for Hypothesis Testing [J]. Physical Review Letters, 1996, 94(4)：221-235．

[3] Theiler J, Eubank S, Longtin A, etal. Testing for Nonlinearity in Time Series, The Method of Surrogate Data [J]. Physical Review Letters D,1992,58：77-94.

[4] Schreiber T and Schmitz A. Surrogate Time Series [J]. Physical Review Letter D, 2000, 142(3-4)：346-382.

[5] Prichard D, Theiler J. Generating Surrogate Data for Time Series with Several Simultaneously Measured Variables [J]. Physical Review Letter, 1994, 73(7)：951-954.

[6] Small M, Harrison D. Surrogate Test for Pseudo Periodic Time Series Data [J]. Physical Review Letters,2001, 87 (18)：188101–188104.

[7] Timmer J. Power of Surrogate Data Testing with Respect to Nonstationarity [J] . 1998, 58(4): 5153-5156.

[8] Schreiber T, Schmitz A. Improved Surrogate Data for Nonlinearity Test [J]. Physical Review Letter, 1996, 77(4)：635-638.

[9] Schreiber T ， Schmitz A. Improved Surrogate Data for Nonlinearity Tests[J]．Physical Review Letters，1996, 77(4)：635-638．

[10] Kwiatkowski D, Philips P C B, Schmidt P and Shin Y. Testing the Null Hypothesis of Stationarity against The Alternative of a Unit Root [J]. Journal of Econometrics, 1992,54：159-178.

如需定做,硕士论文请联系我们专家定制团队，QQ337068431，热线咨询电话：021-62170626

分享到：

标签：动力特征替代数据算法概率分布统计检验概率