锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

时间序列异常检测综述

时间:2023-08-26 15:07:01 传感器hmm100

1.介绍

可用于工业设备异常检测、欺诈检测、日志监控

目录

1.介绍


异常:与其它观测结果有很大偏差的观测结果会引起怀疑,属于其他模式。

异常的含义可分为两类:

一是无论收集的数据如何:如果调查城市居民的平均工资,应清理数据,筛选首富数据,使数据更符合普通居民数据的分布。

另一种是有用的数据:获取一种数据,比如机器运行,大部分是正常状态的数据,遇到异常数据可以增加注意力。

离群值检测技术在时间序列背景下的分类

离群值类型:

1.离群点是指在特定时间与其他时间序列中的其他值(全局)或相邻点(局部)进行比较时,表现异常。

2.子序列异常值。指一段时间内部分时间段的异常。

3.时间序列异常:整个时间序列可以是异常值,但只有当输入数据是多个时间序列时,才能检测到。

3.点离群值

3.单变量时间序列

定义最常见的异常点是 估计值 - 预测值 与 阈值 大小关系 ,超过阈值被定义为异常点。这构成了 Model-based 的模型。

Estimation(估计)和prediction(预测):区别在于data一是利用过去、现在和未来的数据进行预测。

估计(Estimation models)模型

常数模型基于常数或分段常数 例如,获取数据的中位数 并用来作为x?t

预测模型(Predict models)

1.使用Lstm或者用其他方法预测数据

2.使用滑动窗进行预测

Density-based(基于密度)

d通常表示为欧式距离 , xt 需要分析的数据 ,x为 一系列数据点 如果是一个estimation 问题的话 xt 就需要和 估计前后,让他们的和小于τ 则为 异常点.

局域密度法通常用于非时期数据,因为它更倾向于时间关系

局域密度法通常用于非时期数据,因为它更倾向于时间关系

Histogramming

该方法是基于移除点后的误差低于原始值

3.2多变量时间预测
与多个时序相关的变量 但是不考虑这些变量之间的关系 最著名的是LSTM

但是 单时间变量会导致信息损失 如何解决这个问题

--> 通过预处理这些元素,使成 非相关变量

这些方法一般 都是通过降维来实现的

一些降维技术是基于计算初始变量的线性组合,以找到新的不相关变量集 例如:PCA 等等

其他技术将输入的多个时间序列减少为单个时间相关变量,而不是一组无关变量

3.2.2 多变量处理时序异常检测

在estimation model 中 auto-encoder(自动编码机)(一个神经网络通过学习正常数据的训练集获得重要特征,因为异常点通常属于另一个特征,无法重构)

4.子序列异常

一般来说,异常是一系列点

首先,子序列由一组点组成,而不是一个点组成,所以它们有一定的长度。固定长度通常使用

二是损失函数的定义 一个序列的损失函数比一个点更难定义。

最后,输入输出的形式非常有限

周期子序列也是一个很重要的问题但是很少有人研究

4.1 异常检测单变量子序列

直接寻找最不符合要求的,如下图所示的01 和o2位置明显出现discord

这种方法一次又一次地用于已确定长度的案例,但上述方法不知道什么是正常的,也不知道是否异常 只能确定一段时间内最异常的。

5.异常检测方法:

1)直接检测:针对异常点,直接定位离群点,又称离群值检测。

2)间接检测:上下文或集合异常先转化成点异常,然后求解

3)时间跨度检测:ARIMA, 回归模型,LSTM等等,核心思想是模型学习历史数据,然后预测, 通过比较真实值和预测值的偏差来判断是否异常。

4)序列跨度检测:许多传感器应用程序产生的时间序列通常彼此紧密相关。例如,在一个传感器上的鸟叫通常也会被附近的传感器记录下来。在这种情况下,经常可以使用一个序列来预测另一个序列。与此类预期预测的偏差可以报告为异常值,如隐式马尔科夫链HMM等

6.时间序列的特征工程

6.1 非数值型变量处理方法

极值分析和统计算法依赖于统计量化,例如均值或者标准差,对于非数值型变量,这些统计量化将不再有意义;但通过一些改变我们就能非数值型变量转化成数值型变量。

  • 分布概率转化

就是变量不再默认服从特定分布(如高斯),而需要单独根据具体数据集定义概率分布(按比例),并按乘积方式与数值变量组合以创建单个多元分布。

  • 线性转化:

1.One-hot码二进制转换,一个值对应一个种类,但容易维度爆炸,且无法体现不同类别的不同权重。可以通过将每列除以其标准偏差(deviation)来进行归一化。

2.潜在语义分析(Latent Semantic Analysis)

  • 基于相似度量的转化:

1.基于数据的统计邻域计算相似度,比如文本变量中“红色”和“橙色”比“红色”和“蓝色”更相近,但要求人为区分属性值之间的语义关系。

6.2特征工程构造思路

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章