降维

编辑

在统计学、机器学习和信息论中，降维是通过获得一组主要变量并减少所考虑的随机变量数量的过程^[1]。主要分为特征选择和特征提取。^[2]

目录编辑

1 特征选择编辑

特征选择方法试图找到原始变量的子集(也称为特征或属性)。有三种策略：过滤策略(如信息增益)，包装策略（如由准确性引导的搜索）和嵌入策略（如选择特征以在基于预测误差构建模型时添加或移除特征）。

在某些情况下，回归或分类等数据分析在缩小的空间中比在原始空间中可以更精确地完成。^[3]

2 特征投影编辑

特征投影(也称为特征提取)将高维空间中的数据转换为更少维度的空间。数据转换可以是线性的，如主成分分析，但也存在许多非线性降维技术。^[4]^[5]对于多维数据，张量表示可以通过多线性子空间的学习进行降维。^[6]

2.1 主成分分析(PCA)

降维的主要线性技术，主成分分析，以使低维表示中的数据方差最大化的方式，执行数据到低维空间的线性映射。在实践中，构建数据的协方差(或相关性)矩阵，并计算该矩阵上的特征向量。与最大特征值(主成分)相对应的特征向量现在可以用于重构原始数据的大部分方差。此外，前几个特征向量通常可以根据系统的大规模物理行为来解释。原始空间(具有点数的维度)已经减少(存在数据丢失，但是希望保留最重要的方差)到由几个特征向量跨越的空间。

2.2 非负矩阵分解(NMF)

NMF将非负矩阵分解为两个非负矩阵的乘积，这在只有非负信号存在的领域是一个很有前途的工具。^[7]^[8]比如天文学^[9]^[10]。NMF是众所周知的，自Lee & Seung的乘法规则更新以来^[7]，NMF在不断发展：包含不确定性 ^[9]、丢失数据和并行计算的考虑 ^[11]，顺序构造^[11] 导致了NMF的稳定性和线性度^[10]，同时也有其他更新。

在构造期间具有稳定的组件基础，以及线性建模过程，顺序NMF^[11] 作为探测系外行星的方法之一，特别是用于星周盘的直接成像，能够保持天体中星周结构直接成像的通量^[10]。与主成分分析相比，NMF没有去除导致非物理非负通量的矩阵平均值，因此NMF能够保存比主成分分析更多的信息（Ren 等人所证明）^[10]。

2.3 内核主成分分析

主成分分析可以通过核技巧以非线性方式使用。由此产生的技术能够构造非线性映射，使数据中的方差最大化。这种技术被称为内核主成分分析。

2.4 基于图的核主成分分析

其他突出的非线性技术包括流形学习技术，如Isomap、局部线性嵌入(LLE)、Hessian LLE、拉普拉斯特征映射和基于tangent空间分析的方法^[12]^[13]。这些技术使用保持数据局部属性的成本函数来构建低维数据表示，并且可以被视为基于图形内核的PCA定义。

最近，有人提出了一些技术，这些技术不是定义一个固定的内核，而是尝试使用半定编程来学习内核。这种技术最突出的例子是最大方差展开(MVU)。MVU的中心思想是精确地保留最近邻之间的所有成对距离(在内积空间中)，同时最大化不是最近邻的点之间的距离。

邻域保持的另一种方法是通过最小化测量输入和输出空间距离差异的成本函数。这种技术的重要例子包括：经典多维标度，与主成分分析相同；Isomap，使用数据空间中的测地距离；扩散图，使用数据空间中的扩散距离；t分布式随机近邻嵌入(t-SNE)，它最大限度的减少了点对分布之间的差异；曲元分析。

非线性降维的另一种方法是使用自动编码器，这是一种特殊的前馈神经网络，具有瓶颈隐藏层。^[14]深度编码器的训练通常使用贪婪的分层预训练(例如，使用一堆受限的玻尔兹曼机器)来执行，随后是基于反向传播的微调阶段。

2.5 线性判别分析（LDA）

线性判别式分析(LDA)是费希尔线性判别式(Fisher linear discrimina tion)的推广，费希尔线性判别式是一种用于统计、模式识别和机器学习的方法，用于寻找表征或分离两类或更多类对象或事件的特征的线性组合。

2.6 广义判别分析(GDA)

GDA利用核函数算子处理非线性判别分析。基础理论与支持向量机(SVM)很接近，因为GDA方法提供了输入向量到高维特征空间的映射。^[15]^[16]与LDA相似，GDA的目标是通过最大化类间散射与类内散射的比率，找到特征空间在较低维空间中的投影。

2.7 自动编码器

自动编码器可用于学习非线性降维函数和编码以及从编码到原始表示的反函数。

3 降维编辑

对于高维数据集(即维数大于10的数据集)，为了避免维数灾难的影响，通常在应用K-最近邻算法(k-NN)之前进行降维。^[17]

使用主成分分析（PCA），线性判别分析（LDA），典型相关分析（CCA）或非负矩阵分解（NMF）技术作为预处理步骤，可以在一个步骤中通过K-NN对缩小空间中的特征向量进行聚类来组合特征提取和降维。在机器学习中，这个过程也称为低维嵌入。^[18]

对于超高维数据集(例如，当对实时视频流、DNA数据或高维时间序列执行相似性搜索时)，使用局部敏感散列、随机投影，^[19] “草图” ^[20] 或者其他高维相似性搜索时，采用VLDB工具箱技术可能是唯一可行的选择。

4 降维的优势编辑

减少了所需的时间和存储空间。
多重共线性的消除改善了机器学习模型参数的解释。
当数据缩小到非常低的维度(如2D或3D)时，更容易可视化。
避免维数灾难。

5 应用编辑

神经科学中有时使用的降维技术是信息量最大的维度，采用低维代表所收集的数据集，从而尽可能多地保留关于原始数据的信息。

6 笔记编辑

Roweis, S. T.; Saul, L. K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150.
Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi. Feature Extraction, Construction and Selection. p. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4. PMID [1] Check |pmid= value (help).
Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35.
Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
Daniel D. Lee & H. Sebastian Seung (1999). "Learning the parts of objects by non-negative matrix factorization". Nature. 401 (6755): 788–791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103.
Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562.
Blanton, Michael R.; Roweis, Sam (2007). "K-corrections and filter transformations in the ultraviolet, optical, and near infrared". The Astronomical Journal. 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127.
Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Non-negative Matrix Factorization: Robust Extraction of Extended Structures". The Astrophysical Journal. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2.
Zhu, Guangtun B. (2016-12-19). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM].
Zhang, Zhenyue; Zha, Hongyuan (2004). "Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment". SIAM Journal on Scientific Computing. 26 (1): 313–338. doi:10.1137/s1064827502419154.
Bengio, Yoshua; Monperrus, Martin; Larochelle, Hugo (2006). "Nonlocal Estimation of Manifold Structure". Neural Computation (in 英语). 18 (10): 2509–2528. CiteSeerX 10.1.1.116.4230. doi:10.1162/neco.2006.18.10.2509. PMID 16907635.
Hongbing Hu, Stephen A. Zahorian, (2010) "Dimensionality Reduction Methods for HMM Phonetic Recognition," ICASSP 2010, Dallas, TX
Baudat, G.; Anouar, F. (2000). "Generalized Discriminant Analysis Using a Kernel Approach". Neural Computation. 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760. doi:10.1162/089976600300014980.
Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: Trustworthy cloud-based and cross-enterprise biometric identification". Expert Systems with Applications. 42 (21): 7905–7916. doi:10.1016/j.eswa.2015.06.025.
Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is “nearest neighbor” meaningful?". Database Theory—ICDT99, 217–235
Shaw, B.; Jebara, T. (2009). "Structure preserving embedding" (PDF). Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09. p. 1. CiteSeerX 10.1.1.161.451. doi:10.1145/1553374.1553494. ISBN 9781605585161.
Bingham, E.; Mannila, H. (2001). "Random projection in dimensionality reduction". Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. p. 245. doi:10.1145/502512.502546. ISBN 978-1581133912.
Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8

参考文献

[1]
^Roweis, S. T.; Saul, L. K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150..
[2]
^Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi. Feature Extraction, Construction and Selection. p. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4. PMID [1] Check |pmid= value (help)..
[3]
^Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35..
[4]
^Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9.
[5]
^C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002.
[6]
^Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004..
[7]
^Daniel D. Lee & H. Sebastian Seung (1999). "Learning the parts of objects by non-negative matrix factorization". Nature. 401 (6755): 788–791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103..
[8]
^Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562..
[9]
^Blanton, Michael R.; Roweis, Sam (2007). "K-corrections and filter transformations in the ultraviolet, optical, and near infrared". The Astronomical Journal. 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127..
[10]
^Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Non-negative Matrix Factorization: Robust Extraction of Extended Structures". The Astrophysical Journal. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2..
[11]
^Zhu, Guangtun B. (2016-12-19). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM]..
[12]
^Zhang, Zhenyue; Zha, Hongyuan (2004). "Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment". SIAM Journal on Scientific Computing. 26 (1): 313–338. doi:10.1137/s1064827502419154..
[13]
^Bengio, Yoshua; Monperrus, Martin; Larochelle, Hugo (2006). "Nonlocal Estimation of Manifold Structure". Neural Computation (in 英语). 18 (10): 2509–2528. CiteSeerX 10.1.1.116.4230. doi:10.1162/neco.2006.18.10.2509. PMID 16907635..
[14]
^Hongbing Hu, Stephen A. Zahorian, (2010) "Dimensionality Reduction Methods for HMM Phonetic Recognition," ICASSP 2010, Dallas, TX.
[15]
^Baudat, G.; Anouar, F. (2000). "Generalized Discriminant Analysis Using a Kernel Approach". Neural Computation. 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760. doi:10.1162/089976600300014980..
[16]
^Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: Trustworthy cloud-based and cross-enterprise biometric identification". Expert Systems with Applications. 42 (21): 7905–7916. doi:10.1016/j.eswa.2015.06.025..
[17]
^Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is “nearest neighbor” meaningful?". Database Theory—ICDT99, 217–235.
[18]
^Shaw, B.; Jebara, T. (2009). "Structure preserving embedding" (PDF). Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09. p. 1. CiteSeerX 10.1.1.161.451. doi:10.1145/1553374.1553494. ISBN 9781605585161..
[19]
^Bingham, E.; Mannila, H. (2001). "Random projection in dimensionality reduction". Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. p. 245. doi:10.1145/502512.502546. ISBN 978-1581133912..
[20]
^Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8.

阅读 2283