锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

随机分布嵌入使短时高维序列可预测

时间:2023-03-01 21:00:00 压力继电器油压开关dnb

【Randomly Distributed Embedding Making Short-term High-dimensional Data Predictable】阅读与感悟。

随着大数据时代的不断推进,数据越来越多,能否从复杂的数据中提取出有价值的信息,取决于数据处理的方法。对于现实世界中的非线性动态系统的预测一直都是个挑战,非线性动态系统往往具有时间短、维数高的特点,这恰好也是数据准确预测的一个难题。

在大多数情况下,数据处理以时间为自变量。1994年由Hamilton创建的时间序列分析书将时间序列分析应用于经济学。本书介绍了数据处理的基本差异方程和延迟操作符;介绍了平均自回归滑动模型(stationary ARMA processes),该模型是从自回归模型研究时间序列的重要方法(AR),移动平均模型(MA)它是基础混合的,常用于市场研究中的长期跟踪数据研究。然而,该模型也有一定的局限性。例如,在我的阅读中,我发现当自变量与因变量之间存在线性关系时,参数可以用最小的二乘法估算,估计结果更准确。当两者之间存在非线性关系时,很难获得ARMA模型参数的准确估值。这本书还简要讨论了光谱的参数化和非参数化对于独立数据的大数定律,采用切比雪夫不等式进行连续相关观察。

在大数据时代,从微观基因表达数据到微观神经活动数据,再到宏观生态和大气数据,以时间序列为主要模式的积累。寻求准确的预测和预测,特别是基于序列长度短、维度高的数据集。通常,短期和高维度都被认为是时间准确性和鲁棒性预测的障碍,因为短期数据会导致数据模式较少,高维度系统的变量可能会导致维度问题。例如,基于模型的回归方法(Regression Method)。回归方法通常用于自变量数据高度相关的拟合,可以在原偏差的基础上增加偏差,以减少整体标准偏差。然而,如果回归方法应用于短期高维数据集,则无法有效、准确地估计这些参数和权重,因为高维变量需要在计算模型中添加更多的参数或权重。基于经验的无模型方法(empiricism-based model-free method),通常使用最近的相邻值来预测目标值。一个系统有一定的稳态发展趋势,称为吸引子,它描述了运动的收敛类型,存在于相位空间中。然而,在短期高维特征的数据集中中中,短期数据使用来描述高维空间中动态特征的吸引力变得稀疏,从而导致最近错误的相邻问题。

图一 DNB网络图

此外,深度信念网络等机器学习方法(deep belief network DBN),它是一种神经网络。该方法可用于非监督学习,类似于自编码机;也可用于监督学习,作为分类器。在非监督学习方面,其目的是尽可能保留原始特征的特征,同时降低特征的维度。在监督学习方面,其目的是使分类错误率尽可能小,DBN过程的本质实际上是如何获得更好的特征表达。例如,长时间和短时间记忆网络(long short-term memory network),是基于RNN的进一步延伸。如下图二,LSTM的预测效果对于特定的数据集也是比较理想的。

图二 LSTM对于Mackey-Glass1000步预测

        原始的RNN的隐藏层只有一个状态,这个状态参数对于短期的输入非常的敏感,如果我们再增加一个状态,让它来保存长期的状态,那么问题就迎刃而解了。这就是长短时记忆网络。例如Reservoir computing模型,通常reservoir有很多节点组成,且节点的连接时稀疏的,因为节点之间会形成很多的循环,所以该模型也是递归神经网络,中间层的矩阵是随机生成的而且生成之后就保持不变,因此真正需要训练的只有输出层,这也使它比传统的机器学习方法快得多。该方法,从有限的并发系统状态测量中推导出动态系统的状态作为时间的函数是一个很有实用价值的重要问题。实现这一目标的方案称为“观察者”。考虑这样一种情况,即系统的某个模型不可用或不够精确,但是所需状态变量的“训练”时间序列数据在短时间内可用,并且不断地测量有限数量的其他系统变量。

图三 RNN网络图

       2017年提出了一个解决这个问题的方法,使用神经元样单元的网络,即所谓的“水库计算机”。该方法已经发现了先前方法对于短时数据的不敏感,不适用的局限性,不断寻求对于短时数据的突破。以上的这些方法,都已经被强烈的运用到机器学习来获得系统的重建和动态预测。然而,这些系统模型,都是基于神经网络框架,更加依赖于可靠的用于训练的数据长度,因此以上这些具有代表性的方法,只有当训练集包含了足够大量的训练数据的时候,参数才能够不断的完善,最终的预测效果才会更有效。因此,这些方法,在面对数据集不足,即短时数据时,变得非常的鸡肋。而且在我看来,不去寻找更加高效的模型,而是纯粹的通过大量的数据堆砌训练,也不是非常的可取。

       对于高维数据,为了能有效的处理高维数据,通常总会采用降维技术。降维技术主要是应用于特征取出。1996年提出了一种方法,利用自举样本、两种不同的分类规则、对混合数据的逻辑回归和线性判别分析、连续或分类以及随机选择解释变量来构建单个预测因子,当时这个方法被应用于构建心衰患者的短期事件风险评分。

       对于现实世界中,非线性数据是普遍存在的。非线性的数据结果往往具有以下的特点,数据之间没有对应的关系,通常是一对多的数据结构或者是多对多的网络结构。非线性科学的迅猛发展始于1963年洛仑兹发表的论文《决定论非周期流》。1961年,美国气象学家Edward Lorenz提出了一个简单的大气数学模型,并试图用计算机进行求解。他发现,只要计算程序的起始条件(温度、气压等)稍有变化,最终就会产生完全不同的天气状态。这清楚地表明了因果性的不成立(后来这一事实被称为蝴蝶效应)。这个现象的发现深刻地揭示了非线性系统的共同性质、基本特征和运动规律。非线性动力学理论为我们描述非线性复杂系统的特征提供了一种独立于模型的语言。非线性动力学分析方法为诸如心脏电活动之类的复杂的生理系统的研究开辟了途径,指出了方向。

       一般情况下,我们使用相空间,来描述一个高维数据的动态特征。在一个假想的空间中建立起系统状态和假想空间中的点的一一对应关系,就可以构建出所谓的相空间。用状态变量支撑起的抽象空间。对一个确定性系统的描述就是对它在相空间或者状态空间的性质的描述。一个相空间就是一个坐标系统,其坐标轴由所研究的系统的独立状态变量决定。对于相空间的展开,也有很多的学问。需要从相空间图上来选择合适的延时。观察相空间图,如果延时过小,相空间图将压缩在对角线附近;如果延时过大,相空间图将发生畸变;如果延时适当,相空间图将充分展开。随着对相空间研究的广泛深入,2011年,非线性状态空间的广利理论提出了。该理论基于原始的非线性相空间的研究,进一步的证明了多元嵌入,即使用多个时间序列以及滞后的嵌入的更一般的情况,并展示了如何利用多个时间序列及其滞后来构建嵌入。这些定理为在实际应用中更加广泛的使用状态空间重构的方法铺平了道路。在我看来,因为实际应用中可能无法获得长时间的时间序列,因此可以以阶乘的方式创建多个不同的原始态嵌入,从而更充分的利用耦合的非冗余性。

       通常在一个典型的高维非线性系统中,存在大量彼此相互作用的变量;然而,在一个瞬间,相位滞后的一个动态稳定通常因为损耗被驱使成低维子空间。因此,这个状态空间技术,基于嵌入算法(embedding theorem),使我们从一个观察到的系统中的时间序列数据中重建一个低维吸引子成为可能。如图一,运用延迟理论,可以重构出相空间并且能保留原始动态信息。

图四 洛伦兹系统的各变量变换

       在上图四中,A图为原始的洛伦兹变化图,B图是通过单变量及其延迟构建出来的相空间,很明显的可以看出以然保留了原始系统的动态特征,即有两个吸引子。而B图却没有很好的保留,由此看来,洛伦兹非线性系统中,对于参数的选择是敏感的,因此参数选择也是非常有讲究的。

       在基于非线性系统、相空间重构、延迟嵌入理论以及广义嵌入理论的理论基础上,使我们从一个观察到的系统中的时间序列数据中重建一个低维吸引子成为可能。因此,随机分布嵌入框架结构(RDE)被提出了。RDE框架,依赖于,通过n维时间序列的数据,两种三维的吸引子可以被重建出来,并且认为这种重建出来后的系统,保留了原始系统的动态特性。

       如图五,假定有一个观察到的n维的随机变量,从该n维的数据中,随机取出一个一维的变量作为靶变量,通过延迟嵌入理论的延迟嵌入,构建出一个三维的相空间M,M被称为低维空间的延迟吸引子;再从该n维系统中,随机抽取m个靶变量,利用广义嵌入理论,构建出三维相空间N,N被称为低维空间的非延迟吸引子。通过一定的数学函数以及证明,可以发现,延迟吸引子和非延迟吸引子之间存在着某种函数关系,并且延迟吸引子和非延迟吸引子都保留了原始系统的动态特征。因此,提供了一个准确预测高维多变量系统的思路,通过部分的数据,可以得到两个吸引子之间的函数关系,就可以知道非延迟到延迟之间的变换。之后,就可以利用非延迟嵌入理论,构建出非延迟吸引子,再利用这个函数关系,就可以得出延迟过后的数据,这种延迟其实就是一段时间之后的数据,即可以通过随机选择出的现时数据可以预测的一段时间之后的数据,实现预测。

图五 RDE的主要框架图

       延迟吸引子M和非延迟吸引子N之间可以互相转换的有效性,是基于嵌入理论,理论上低维层面上延迟吸引子和非延迟吸引子能够以不同的方式保留原始的整个系统的动态信息。同时还应该注意降维的维度选择,通常选择为3,也可以根据实际情况选择。一般情况下维度要远低于初始维度。基于嵌入理论,湍流动态系统中的奇异吸引子的相空间是可以被重建出来的。

       对于延迟吸引子M和非延迟吸引子N之间的互相转换,即利用某个函数可以将N转化为M,在RDE的文献中使用的是高斯过程回归方法(GPR),使用高斯过程回归,是使用高斯过程先验对数据进行分析的非参数模型。如下图六,是我做的一个简单的小实验,使用的就是高斯过程回归来拟合一些散点图。

图六 高斯过程回归的拟合图

       从多个变量的非延迟吸引子到单个靶变量的延迟吸引子所利用的嵌入理论,揭示了重建的吸引子,由于是微分同胚的,所谓的微分同胚即微分同胚映射,指的是从原始相空间到重构相空间是微分同胚的,重构相空间中保留了原始吸引子的拓扑学性质和几何不变量,因此可以在重构的相空间中研究系统的动力学行为。

       因为从非延迟吸引子到延迟吸引子,非延迟吸引子里面的变量是随机选择的,也就是说,一个n维变量,从中选择m维变量构成非延迟吸引子的相空间,是有Cnm个的,也就是说最后的结果也有Cnm个,这个时候我们可以得到每一种预测值出现的概率,因此通过t检验,可以选择概率最大的值来作为最终的预测值,每一个随即嵌入都被视为是一个特征,因此最终的预测值被估算成所选择特征的聚合平均值。如图七,最终可以得到随即嵌入预测值的概率分布。并且,研究证明,多个随机变量的预测要比单个随机变量的预测提供更多的信息。该思想可以追溯到2003年的文献,可以通过随即特征子集来提升分类算法的精度。

       RDE算法通过很多数据来证明算法的预测精度。通过非线性的90维耦合洛伦兹系统的预测,能够发现预测的结果确实比较拟合。预测的结果如下图八。

       实验通过分析了很多数据集,例如通过给综合数据添加噪声,高维非线性洛伦兹系统,ISCAM模型的20﹡20的螺旋模式,现实世界中的模型,如基因数据集中五个探针的一步预测、日本某地区的天气预测、心血管疾病入院治疗的一维预测、风速数据等数据,进一步证明RDE算法对于短时高维数据预测的有效性和可靠性。

       接下来的工作是学习非线性系统中的经典理论,并应用在自己的课题中。理解RDE中的数学理论,基于脑电信号的预测,分析RDE算法中维度、概率密度函数、时间间隔、虚假临界点嵌入维数、歪斜度与极限值等参数的选择。

       对于将RDE应用于课题,有部分疑问。其一,RDE是基于整个动态系统,动态系统之间一般都包含各个维度的相互作用,是否生理电信号之间也存在着某种相互作用?例如脑电信号采集的各个通道,各个导联,是否可以理解成不同的维度。其二,RDE算法对于未来长时间的预测是否可靠?譬如应用在癫痫脑电信号的预测中,由于发病并不一定是立即的,可能在正常和发病之间的间期很长,RDE是否还能精确预测还需要继续实验。

图七 RDE算法的框架图

图八 耦合洛伦兹系统的RDE预测结果

【本文所有图片来源论文与网络】

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章