分段聚合近似法
分段聚合近似法(英文:Piecewise Aggregate Approximation,PAA)是一种时间序列数据的降维方法,最早由埃蒙·基奥(Eamonn Keogh)等人提出,用于建立时间序列索引[1]。相比于离散傅里叶变换、离散小波变换、奇异值分解等降维方法,分段聚合近似法操作比较简便,适用于更多距离度量,例如加权欧氏距离。并且分段聚合近似法还适用于索引长度和查询长度不同的情况[2]。如今分段聚合近似法已经成为一种广泛应用的时间序列处理方法[3][4]。
定义
设时间序列 的长度为 。将其用一条长度为 的向量 表示, 第 个元素的定义为[5]:
简言之,为了将原始时间序列从 维降低到 维,需要将原始数据分割成 个等长的分段,在每个分段内计算均值就可以得到降维后的数据表示。
当 时,分段聚合近似法得到的向量就是原始时间序列本身,当 时,分段聚合近似法得到的得到值就是原始时间序列的均值[6]。
索引建立方法
用分段聚合近似法建立用于子序列匹配的索引的时间复杂度为 。因为对于大约 个“窗口”,每个分段都要用上述公式计算 次,并且上述公式要对长度为 的部分求和。埃蒙·基奥(Eamonn Keogh)提出了一种快速计算的方法,可以将时间复杂度降低到 : 每次计算时只要从上次的结果减去上一段离开“窗口”的数据点的部分,加上新进入“窗口”的数据点的部分即可。在第 个“窗口”内的第 个值可以通过以下公式更新[7]:
应用领域
作为一种时间序列降维方法,分段聚合近似法得到了广泛的应用,是一些时间序列的低维表示方法的前期处理步骤之一[8]。 在使用分段聚合近似法建立索引后,为了进行各种查询,要使用某种距离 进行相似度度量。为了避免假阴性情况的出现,所使用的距离需要满足以下特征[9]: 如果 的定义为: ,则满足上述条件[10][11]。一些时间序列的检索方法,例如K-NN的算法中,会使用具有以上特征的距离,根据索引进行初步筛选[12]。
参考资料
- ^ Tak-chung Fu. A review on time series data mining. Engineering Applications of Artificial Intelligence. 2011, 24 (1): 164–181 [2019-06-05]. (原始内容存档于2019-06-05) (英语).
- ^ 原继东; 王志海. 时间序列的表示与分类算法综述. 计算机科学. 2015, 42 (3) [2019-06-05]. (原始内容存档于2019-06-05).
- ^ Bakar, Azuraliza Abu; Almahdi Mohammed Ahmed, and Abdul Razak Hamdan. Discretization of time series dataset using relative frequency and K-nearest neighbor approach. International Conference on Advanced Data Mining and Applications. Berlin, Heidelberg: Springer: 193–201. 2010-11 [2019-06-05]. (原始内容存档于2019-06-05) (英语).
- ^ Kulahcioglu, Burcu, Serhan Ozdemir, and Bora Kumova. Application of symbolic Piecewise Aggregate Approximation (PAA) analysis to ECG signals (PDF). 17th IASTED International conference on applied simulation and modelling. 2008-01 [2019-06-05] (英语).
- ^ 李海林; 郭崇慧; 杨丽彬. 基于分段聚合时间弯曲距离的时间序列挖掘. 山东大学学报 (工学版). 2011, 41 (5): 57–62 [2019-06-05]. (原始内容存档于2019-06-05).
- ^ Vignesh Krishnamoorthy. Piecewise Aggregate Approximation. vigne.sh. 2018-02 [2019-06-05]. (原始内容存档于2020-10-21) (英语).
- ^ Keogh, Eamonn; Kaushik Chakrabarti; Michael Pazzani; Sharad Mehrotra. Dimensionality reduction for fast similarity search in large time series databases. Knowledge and information Systems. 2001-08, 3 (3): 263–286 [2019-06-05]. (原始内容存档于2016-05-02) (英语).
- ^ 时间序列数据的一种符号化表示方法. Google Patent. 2016-11-09 [2019-06-04].
- ^ Chonghui Guo; Hailin Li, Donghua Pan. An Improved Piecewise Aggregate Approximation Based on Statistical Features for Time Series Mining. International conference on knowledge science, engineering and management. An improved piecewise aggregate approximation based on statistical features for time series mining: 234–244. 2010-09-01. (原始内容存档于2018-06-17) 使用
|archiveurl=
需要含有|url=
(帮助) (英语). - ^ Fuad, Muhammad Marwan Muhammad. Using Differential Evolution to Set Weights to Segments with Different Information Content in the Piecewise Aggregate Approximation. KES. 2012: 440–449 [2019-06-05]. (原始内容存档于2015-10-31) (英语).
- ^ Jessica Lin; Eamonn Keogh; Li Wei; Stefano Lonardi. Experiencing SAX: a novel symbolic representation of time series. Data Mining and knowledge discovery: 101–144. [2019-06-05]. (原始内容存档于2020-02-10) (英语).
- ^ Keogh, Eamonn; Chotirat Ann Ratanamahatana. Exact indexing of dynamic time warping. Knowledge and information systems. 2005, 7 (3): 358–386 [2019-06-04]. (原始内容存档于2019-02-26) (英语).