主成分分析(PCA)是一种统计过程,它使用正交变换将一组可能相关变量(实体,每个实体具有不同的数值)的观察值转换为一组称为主成分的线性不相关变量的值。如果有带p个变量的n个观测值,那么不同主成分的数量为min(n-1,p)。这种变换以使得第一主成分具有最大可能的方差定义(即,尽可能多地占数据中的可变性),并且在与前面的分量正交的约束下,每个后续分量又具有最大可能的方差。结果向量(每个向量是变量的线性组合,包含 n 观察)是不相关的正交基集。主成分分析对原始变量的相对比例很敏感。
PCA是1901年由卡尔·皮尔逊发明的,[1] 作为力学中主轴定理的类比;它后来被独立开发,并于20世纪30年代由哈罗德·霍特林命名。[2] 根据应用领域,它也被称为信号处理中的离散卡尔洪恩-洛维变换(KLT),多元质量控制中的霍特林变换,机械工程中的正交分解(POD),X的奇异值分解(SVD)(Golub and Van Loan,1983),线性代数中XTX的特征值分解(EVD)T,因子分析(关于主成分分析和因子分析之间的差异的讨论,请参见乔利夫的Ch. 7主成分分析), 埃克哈特-杨定理(哈曼,1960),或气象科学中的经验正交函数(EOF),经验特征函数分解(Sirovich,1987),经验分量分析(Lorenz,1956),准谐波模式(Brooks等,1988),噪声和振动中的谱分解,以及结构动力学中的经验模态分析。
主成分分析主要用作探索性数据分析和预测模型的工具。它经常被用来想象种群之间的遗传距离和亲缘关系。PCA可以通过数据协方差(或相关性)矩阵的特征值分解或数据矩阵的奇异值分解来完成,通常在初始数据的归一化步骤之后。每个贡献数据的归一化包括平均居中 –从变量的测量平均值中减去每个数据值,使其经验平均值(平均值)为零–并可能标准化每个变量的方差,使其等于1;参见Z分数。[3] 主成分分析的结果通常以下列方式讨论成分得分,有时叫做因子得分 (对应于特定数据点的转换变量值),以及载荷 (每个标准化原始变量应乘以的权重,以获得成分得分)。[4] 如果成分得分被标准化为单位方差,载荷必须包含其中的数据方差(即特征值的大小)。如果分量分数没有标准化(因此它们包含数据方差),那么载荷必须是单位尺度的(“标准化”),并且这些权重被称为特征向量;它们是变量正交旋转到主成分或返回的余弦函数。
主成分分析是最简单的基于特征向量的多元分析。通常,它的操作可以被认为是以最好地解释数据差异的方式揭示了数据的内部结构。如果一个多元数据集被可视化为高维数据空间中的一组坐标(每个变量一个轴),PCA可以向用户提供一个较低维的图像,当从它最有信息的视点观看时,这个对象的投影。这是通过仅使用前几个主成分来实现的,从而降低了变换数据的维数。
主成分分析与因子分析密切相关。 因子分析通常包含更多关于底层结构的领域特定假设,并求解稍微不同的矩阵的特征向量。
主成分分析也与典型相关分析相关(CCA)。CCA定义了最佳描述两个数据集之间互协方差的坐标系,而PCA定义了最佳描述单个数据集中方差的新正交坐标系。[5][6]
PCA可以被认为是将p维椭球拟合到数据中,其中椭球的每个轴代表一个主要成分。 如果椭圆体的某个轴很小,那么沿着该轴的方差也很小,并且通过从数据集的表示中省略该轴及其相应的主成分,我们仅丢失相当少量的信息。
要找到椭球的轴,我们必须先从数据集中减去每个变量的平均值,以使数据以原点为中心。然后,我们计算数据的协方差矩阵,并计算该协方差矩阵的特征值和相应的特征向量。然后我们必须将每个正交特征向量归一化为单位向量。一旦这样做了,每个相互正交的单位特征向量可以解释为适合数据的椭球轴。这种基的选择将把我们的协方差矩阵转换成对角线形式,对角线元素代表每个轴的方差。每个特征向量表示的方差比例可以通过将对应于该特征向量的特征值除以所有特征值的和来计算。
这个过程对数据的缩放很敏感,并且对于如何最好地缩放数据以获得最佳结果没有共识。
PCA在数学上被定义为一种正交线性变换,将数据变换到一个新的坐标系,使得数据的某个投影的最大方差出现在第一个坐标(称为第一主成分)上,第二个最大方差出现在第二个坐标上,依此类推。[7]
考虑一个数据矩阵X,其列方向的经验平均值为零(每列的样本均数值都已移至零),其中每个 n 行表示实验的不同重复,每个 p 列给出了一种特定的特征(例如,来自特定传感器的结果)。
数学上,转换由一组权重或系数的p-维向量
绘制每个行向量X的
到主成分的一个新向量 ,由下式给出
以这种方式,在数据集上考虑的t向量上的单个变量 继承来自x的最大可能方差,每个系数向量w被约束为一个单位向量。
为了最大化方差,第一权重向量w(1) 因此必须满足
等价地,用矩阵形式写这个可以得到
因为w(1) 被定义为一个单位向量,它也等价地满足
要最大化的量可以被认为是瑞利商。半正定矩阵(例如XTX)的标准结果是商的最大可能值是矩阵的最大特征值,当w是相应的特征向量时发生。
w(1) 找到了,数据向量x(i)的第一主成分可以在变换后的坐标中以得分为 t1(i) = x(i) ⋅ w(1) 给出,或者作为原始变量中的对应向量,{x(i) ⋅ w(1)} w(1)。
第k个分量可以通过减去前面来自X的 k − 1个主要成分获得:
然后找到从这个新的数据矩阵中提取最大方差的权重向量
原来这给出了X的剩余特征向量Tx,括号中数量的最大值由它们相应的特征值给出。因此权重向量是X的特征向量TX.
事实证明,这给出了XTX的剩余特征向量,括号中的数量的最大值由它们相应的特征值给出。 因此权重向量是XTX的特征向量。
因此,数据向量 x(i) 的第k个主成分可以在变换的坐标中以得分tk(i) = x(i) ⋅ w(k) 给出,或者作为原始变量空间中的相对应的向量,{x(i) ⋅ w(k)} w(k),其中w(k) 是XTX的第k个特征向量。
因此,X完整的主成分分解可以表示为
其中W是一个 p乘p 矩阵,其列是XTX的特征向量。W的转置有时被称为白化或球化变换。W的列乘以相应特征值的平方根,即由方差放大的特征向量,在主成分分析或因子分析中称为负载 。
XTX本身可以被认为与数据集X的经验样本协方差矩阵成正比。
数据集上两个不同的主成分之间样本协方差 Q 的关系为:
其中w(k) 的特征值性质用于从第2行移动到第3行。然而特征向量w(j) 和w(k) 对应于对称矩阵的特征值是正交的(如果特征值不同),或者可以是正交的(如果向量恰好共享相同的重复值)。因此,最后一行中的结果为零;数据集上不同主成分之间不存在样本协方差。
因此,表征主成分变换的另一种方法是变换到将经验样本协方差矩阵对角化的坐标。
以矩阵形式,可以写出原始变量的经验协方差矩阵
主成分之间的经验协方差矩阵为
其中Λ 是XTX的特征值λ(k) 的对角矩阵(λ(k) 等于数据集上与每个分量k相关联的平方和 k(d ): λ(k) = Σi tk2(i) = Σi (x(i) ⋅ w(k))2)
变换T = X W映射一个数据向量X(i) 从最初的p个变量的空间转换到一个新的 p个变量空间数据集上不相关的变量。 然而,并非所有的主要组成部分都需要保留。只保留由第一个L特征向量产生的第一个L主要成分,给出截断变换
其中矩阵TL 现在有了 n 行数,但只有L列。换句话说,主成分分析学习线性变换
其中p × L 矩阵W的列为L个特征形成去相关的一个正交基 (表示的组成部分t)。[7] 通过构造,只有L列的所有变换数据矩阵,该分数矩阵最大化已保留的原始数据的方差,同时最小化总平方重建误差 或者 。
这种降维对于可视化和处理高维数据集来说是非常有用的一步,同时仍然尽可能多地保留数据集中的方差。 例如,选择 L = 2只保留前两个主成分,通过数据最分散的高维数据集找到二维平面,其中数据也基本是分散的,因此如果数据包含聚类,这些也可能基本是分散的,因此最容易在二维图中绘制;然而,如果随机选择通过数据的两个方向(或原始变量中的两个),则聚类彼此之间的分散可能会小得多,并且实际上更有可能彼此基本重叠,使得它们无法区分。
同样,在回归分析中,允许的解释变量越多,得到过拟合模型的可能性越大,无法推广到其他数据集。一种方法,特别是当不同的解释变量之间有很强的相关性时,是将它们减少到几个主成分,然后对它们进行回归,这种方法称为主成分回归。
当数据集中的变量有噪声时,降维也是合适的。 如果数据集的每一列都包含独立的同分布高斯噪声,那么T的列也将包含类似的同分布高斯噪声(这种分布在矩阵W的影响下是不变的,可以认为是坐标轴的高维旋转)。 然而,与相同的噪声方差相比,更多的总方差集中在前几个主成分中,噪声的比例效应更小——前几个成分实现了更高的信噪比。主成分分析因此具有将大部分信号集中到前几个主成分的效果,这可以通过降维有效地捕获;而后面的主要成分可能主要是噪声,因此处理时不会有很大损失。
主成分变换也可以与另一个矩阵分解相关联,即X的奇异值分解,
这里Σ是正数σ(k)的n×p矩形对角矩阵,称为X的奇异值; U是n×n矩阵,其列是长度为n的正交单位向量,称为X的左奇异向量; W是p×p,其列是长度为p的正交单位向量,称为X的右奇异向量。
根据这个因式分解,矩阵XTX可以写为
其中 是奇异值为 X 的方形对角矩阵,也是多余零切断,满足 。
与XTX的特征向量分解比较确定X的右奇异向量W等于XTX的特征向量,而X的奇异值σ(k)X 等于XTX的特征值λ(k)的平方根。
利用奇异值分解可以写出分数矩阵T
所以T的每一列由X的一个左奇异向量乘以相应的奇异值给出。这个形式也是T的极分解。
存在有效的算法来计算X的奇异值分解,而不需要形成矩阵XTX所以计算奇异值分解现在是从数据矩阵中计算主成分分析的标准方法,除非只需要少量成分。
与特征分解一样,截断的 n × L 得分矩阵TL 可以只考虑L个最大的奇异值及其奇异向量:
以这种方式使用截断奇异值分解截断矩阵M或T产生截断矩阵,该截断矩阵是具有最小可能Frobenius范数的,两者之间的差异的意义上与原始矩阵的秩L最接近的可能矩阵,这一结果被称为Eckart-Young定理。
更多考虑
给定欧几里得空间中的一组点,第一主成分对应于穿过多维平均值的线,并且最小化这些点与该线的距离的平方和。在从点中减去所有与第一主成分的相关性后,第二个主成分对应于相同的概念。奇异值(在Σ中)是矩阵XTX的特征值的平方根。每个特征值与每个特征向量相关联的“方差”(更准确地说,是点与其多维平均值的平方距离之和)部分成比例。所有特征值的和等于点与其多维平均值的平方距离的和。主成分分析本质上是围绕其平均值旋转点集,以便与主要成分对齐。这将尽可能多地将方差(使用正交变换)移动到最初的几个维度。因此,其余维度中的值往往很小,可能会在信息损失最小的情况下被删除。主成分分析经常以这种方式用于降维。PCA的区别在于它是保持具有最大“方差”的子空间的最佳正交变换(如上定义)。然而,如果与离散余弦变换,特别是DCT-II(简称为“DCT”)相比较,这种优势的代价是更高的计算要求。与主成分分析相比,非线性降维技术的计算要求更高。
主成分分析对变量的缩放很敏感。如果我们只有两个变量,并且它们具有相同的样本方差并且是正相关的,那么PCA将需要旋转45°,并且这两个变量相对于主成分的“权重”(它们是旋转余弦)将是相等的。但是,如果我们将第一个变量的所有值乘以100,那么,在另一个变量的少量贡献下,第一主成分将几乎与那个变量相同,而第二个分量将几乎与第二个原始变量对齐。这意味着当不同的变量有不同的单位(如温度和质量)时,主成分分析是一种有点武断的分析方法。(例如,如果使用华氏温度而不是摄氏温度,会得到不同的结果。)注意皮尔逊的原始论文题为“关于与空间中的点系统最接近的直线和平面”——在空间中,意味着物理欧几里得空间中不会出现这样的问题。使主成分分析不那么武断的一种方法是通过标准化数据,从而使用自相关矩阵而不是自协方差矩阵作为主成分分析的基础,使用按比例缩放的变量以具有单位方差。然而,这将信号空间的所有维度的波动压缩(或扩展)为单位方差。
平均减法(a.k.a.“均值中心”)对于执行经典PCA以确保第一主成分描述最大方差的方向是必要的。 如果不执行平均减法,则第一主成分可以或多或少地对应于数据的平均值。 为了找到最小化数据近似的均方误差的基础,需要均值为零。[8]
如果对相关矩阵执行主成分分析,则均值中心是不需要的,因为在计算相关之后数据已经居中。 相关性来自两个标准分数(Z分数)或统计矩(因此名称为:Pearson Product-Moment Correlation)的叉积。 另请参阅Kromrey&Foster-Johnson(1998)关于“在中等回归中的平均中心:无关紧要”的文章。
如果对相关矩阵执行主成分分析,则不需要平均居中,因为数据在计算相关性后已经居中。相关性来自两个标准分数(Z分数)或统计矩(因此得名: 皮尔逊积矩相关)中。另见克鲁姆雷&福斯特-约翰逊(1998)关于 “适度回归中的平均中心:无事生非”。
具有线性隐藏层的自动编码器神经网络类似于主成分分析。收敛时,的权重向量 K 隐藏层中的神经元将形成第一层跨越的空间的基础 K 主要成分。与主成分分析不同,这种技术不一定会产生正交向量,但使用奇异值分解可以很容易地从中恢复出主要成分。[9]
主成分分析是模式识别中一种流行的主要技术。然而,它并没有针对类的可分离性进行优化。[10]然而,它已被用于量化两个或多个类别之间的距离,方法是计算主成分空间中每个类别的质心,并报告两个或多个类别的质心之间的欧几里得距离。[11]线性判别分析是一种针对类可分离性进行优化的替代方法。
符号和缩写表
符号 | 含义 | 维度 | 索引 |
---|---|---|---|
数据矩阵, 包含所有数据向量的集合, 一个向量一行 |
|
||
数据集中行向量的个数 | 标量 | ||
行向量中数据个数(维数) | 标量 | ||
尺寸缩小子空间中的维数, | 标量 | ||
经验均值的向量,数据矩阵的每列j的一个均值 | |||
经验标准偏差的矢量,数据矩阵的每列j的一个标准偏差 | |||
所有1的矢量 | |||
与数据矩阵的每列j的平均值的偏差 |
|
||
z分数,使用数据矩阵的每行m的均值和标准偏差计算 |
|
||
协方差矩阵 |
|
||
相关矩阵 |
|
||
矩阵由C的所有特征向量的集合组成,每列一个特征向量 |
|
||
矩阵由C的所有特征向量的集合组成,每列一个特征向量 |
|
||
基矢量矩阵,每列一个矢量,其中每个基矢量是C的特征向量之一,其中W中的矢量是V中的矢量的子集。 |
|
||
由n个行向量组成的矩阵,其中每个向量是从矩阵X到矩阵W的列中包含的基础向量的相应数据向量的投影。 |
|
PCA的性质和局限性
PCA的一些性质包括:[12]
其中 是一个 q元素 向量, 是一个 (q × p) 矩阵,让 是 的方差-协方差矩阵。然后是 ,表示为 ,通过采取以下措施最大化 ,其中 包括 的第一个 q 列 是 的转置)
和 如前所述。通过采用 最小化 ,其中 包括 的最后一个q 列 。
这个属性的统计意义是,在删除重要的PC之后,最后几个PC不仅仅是非结构化的剩余部分。 因为这些最后的PC具有尽可能小的差异,所以它们本身就是有用的。 它们可以帮助检测x元素之间未预料到的近恒定线性关系,它们在回归,从x中选择变量子集以及在异常值检测中也很有用。
在我们看它的用法之前,我们先看看对角线元素,
那么,也许这个结果的主要统计含义是,由于每一个PC,我们不仅可以把所有元素x的组合方差分解减少贡献值,我们也可以从每一个PC,将整个协方差矩阵分解为贡献 。虽然没有严格减少,但随着 的增加, 会变得越来越小,但由于标准化的限制: , 的元素趋向于保持大约相同的大小。
如上所述,主成分分析的结果取决于变量的缩放比例。这可以通过用其标准偏差来缩放每个特征来解决,从而最终得到具有单位方差的无量纲特征。[13]
如上所述的PCA的适用性受到其推导中的某些(默认)假设的限制。[14] 特别地,主成分分析可以捕捉特征之间的线性相关性,但在违反此假设时会失败。(参见参考文献中的图6a)。在某些情况下,坐标变换可以恢复线性假设,然后可以应用PCA(参见内核PCA)。
另一个限制是在构造PCA协方差矩阵之前的均值去除过程。在天文学等领域,所有的信号都是非负的,平均去除过程将迫使一些天体物理暴露的平均值为零,从而产生非物理负通量, 并且必须执行正向建模来恢复信号的真实幅度。[15] 作为一种替代方法,非负矩阵分解只关注矩阵中的非负元素,这非常适合天体物理观测。
一般来说,降维会丢失信息。在某些信号和噪声模型下,基于PCA的降维倾向于最小化信息损失。
假设
即数据向量 是所需信息承载信号 和噪声信号 的总和,从信息论的观点来看,PCA可以是降维的最佳方法。
特别是,林斯克表明,如果 是高斯分布, 是高斯噪声,且其协方差矩阵与单位矩阵成正比,PCA可以在期望的信息 和降维输出 之间最大化互信息 。[16]
如果噪声仍然是高斯的并且具有与单位矩阵成比例的协方差矩阵(即矢量的分量 是idd), 但是承载信息的信号 是非高斯分布(这是常见的情况),PCA至少最小化 信息损失的上限,定义为[17][18]
如果噪声 是 iid,并且至少比信息承载信号 更高斯(就信息增益而言) ,仍然保留PCA的最优化。[19] 一般来说,即使上述信号模型成立,一旦噪声 变得依赖,PCA就失去了信息论的最优性。
用协方差法计算PCA
以下是使用协方差方法对PCA的详细描述, 与相关方法相反。[20]
目标是转换给定的维度是p的数据集X到另一个更小维度L的数据集Y。等价地,我们寻找矩阵Y,其中Y是矩阵X的卡尔洪恩-洛维变换(KLT):
假设您的数据包含一组 p个变量的观测值,并且您希望减少数据,以便每个观测值都仅用 L个变量, L < p。 进一步假设数据被安排为一组 n 个数据向量 ,每一个 表示 p 个变量的一组观测值。
平均减法是寻找主成分基础的解决方案的一个组成部分,它最小化近似数据的均方误差。[21] 因此,我们按照以下方式对数据进行居中:
其中, 是共轭转置算子。注意,如果B完全由实数组成,这在许多应用中是这样的,则“共轭转置”与常规转置相同。
协方差法推导PCA
让X成为一个 d-维随机向量,表示为列向量。不失一般性,假设X的平均值为零。
我们想找到 a d × d 正交变换矩阵P,使得PX具有对角协方差矩阵(即 PX是一个随机向量,其所有不同的分量成对不相关)。
假设 是单一收益率的快速计算:
因此 成立,当且仅当 可被 对角化 。
这是非常有建设性的,因为cov(X)保证是一个非负定矩阵,因此保证可以被某个酉矩阵对角化。
无协方差计算
在实际实现中,特别是对于高维数据( p较大)时,很少使用朴素协方差方法,因为显式确定协方差矩阵的计算和存储成本较高,所以这种方法效率不高。无协方差方法避免了 np2 明确计算和存储协方差矩阵的操作 XTX,而是使用无矩阵方法之一,例如,基于以2np操作为代价的评估乘积 XT(X r) 的函数。
高效计算第一主成分的一种方法[26] 显示在下面的伪代码中,用于零均值的数据矩阵X,无需计算协方差矩阵。
r =长度的随机向量 p 做 c 时间: s = 0 (长度矢量 p) for each row exit if 返回
这个幂迭代算法简单地计算矢量 XT(X r)标准化,并将结果放回r。特征值通过rT (XTX) r近似,这是在单位向量r上对于协方差矩阵 XTX 的瑞利商。如果最大的奇异值与下一个最大的奇异值很好地分离,则向量 r 在迭代次数c内相对于 p以总成本2cnp计算接近X 的第一主成分。使用更高级的无矩阵方法,例如朗佐斯算法或局部最优块预处理共轭梯度(LOBPCG)方法,可以加速幂迭代收敛,而不会显著牺牲每次迭代的小成本。
随后的主要成分可以通过放气逐个计算或同时作为一个块计算。在前一种方法中,已经计算出的近似主成分中的不精确性还会影响随后计算出的主成分的准确性,从而增加每次新计算的误差。块幂法中的后一种方法使用块向量替代了单矢量 r 和 s ,矩阵 R 和 S。R的每一列近似一个主要的主成分,而所有列同时迭代。主要计算是对产品的评估 XT(X R)。例如在LOBPCG中实现与单矢量逐个技术相比,有效的分块消除了误差的累积,允许使用高级BLAS矩阵乘积函数,并且通常导致更快的收敛。
非线性迭代偏最小二乘(NIPALS)是经典功率迭代的变体,其具有通过减法进行的矩阵放气,用于计算主成分或偏最小二乘分析中的前几个分量。对于非常高维的数据集,例如在组学科学(如基因组学、代谢组学)中生成的数据集,通常只需要计算前几个数据集。非线性迭代偏最小二乘法(NIPALS)算法将迭代逼近更新为前导分数和载荷t1 和r1T ,通过每次迭代的幂迭代乘以左边和右边的X,即避免了协方差矩阵的计算,就像在幂迭代的无矩阵实现中一样 XTX,基于评估产品的功能 XT(X r) = ((X r)TX)T。
通过减法的矩阵放气是通过减去外积来执行的, t1r1T 从X离开用于计算后续领先PC的放气残差矩阵。[27]交易对于大数据矩阵或具有高度列共线性的矩阵,NIPALS由于每次迭代中累积的机器精度舍入误差和通过减法的矩阵缩小而遭受PCs正交性的损失。[28] 在每个迭代步骤中,对分数和载荷应用一个格拉姆-施密特再正交化算法,以消除正交性的损失。[29] NIPALS对单向量乘法的依赖不能利用高级BLAS,并且导致聚类前导奇异值的缓慢收敛——这两个缺陷都在更复杂的无矩阵块求解器中解决,例如局部最优块预处理共轭梯度(LOBPCG)方法。
在“在线”或“流式”的情况下,数据逐件到达,而不是存储在单个批次中,对可顺序更新的主成分分析预测进行估计是有用的。这可以有效地完成,但是需要不同的算法。[30]
PCA和定性变量
在PCA中,我们通常希望引入定性变量作为补充元素。 例如,已经在植物上测量了许多定量变量。 对于这些植物,可以获得一些定性变量,例如植物所属的物种。 对这些数据进行PCA以获得定量变量。 在分析结果时,将主成分连接到定性变量物种是很自然的。 为此,产生以下结果。
这些结果就是所谓的 引入定性变量作为补充元素。这一程序在2009年和2013年的《Husson》、《Lê & Pagès 2009 and Pagès 》中有详细介绍。很少有软件以“自动”的方式提供这个选项。情况是这样的,在历史上, 随着勒巴特的工作,SPAD 是第一个提出这一选择和R包 FactoMineR 的。
应用程序
在量化金融中,主成分分析可以直接应用于利率衍生产品组合的风险管理。[31] 交易多种掉期工具(通常是30-500种其他市场可报价掉期工具的函数)的目标是减少通常为3或4个主成分,代表宏观利率的路径。 将风险转换为因子载荷(或乘数)的转换可以提供超出可用范围的评估和理解,以简单地共同查看单个30-500桶的风险。
PCA也以类似的方式应用于投资组合风险和风险回报[32]。 一个应用是降低投资组合风险,将分配策略应用于“主要投资组合”,而不是基础股票。[33] 第二是提高投资组合回报,利用主要成分选择有上涨潜力的股票。[34]
在神经科学中使用主成分分析的变体来识别刺激的特定属性,该刺激增加神经元产生动作电位的概率。[35]这种技术称为尖峰触发协方差分析。在典型的应用中,实验者将白噪声过程呈现为刺激(通常作为测试对象的感觉输入,或作为直接注入神经元的电流)并记录一系列由神经元产生的动作电位或尖峰。据推测,刺激的某些特征使神经元更容易出现尖峰。为了提取这些特征,实验者计算尖峰触发的整体的协方差矩阵,即在即将产生尖峰之前所有刺激的集合(在有限时间窗口上定义和离散化,通常在100ms的量级上)。尖峰触发协方差矩阵与先前激励集合的协方差矩阵(在相同长度时间窗口上定义的所有激励集合)之间的差异的特征向量,指示刺激空间中的方向,其中方差为尖峰触发的集合与先前的刺激集合的差异最大。具体来说,具有最大正特征值的特征向量对应于尖峰触发的集合的方差与先前的方差相比显示最大正变化的方向。由于这些是改变刺激导致尖峰的方向,因此它们通常是追求相关刺激特征的良好近似值。
在神经科学中,主成分分析也被用来从神经元的动作电位形状中辨别神经元的身份。尖峰挑选是一个重要的过程,因为细胞外记录技术经常从不止一个神经元中提取信号。在棘波挑选中,首先使用主成分分析来降低动作电位波形空间的维数,然后执行聚类分析来将特定的动作电位与单个神经元相关联。
主成分分析作为降维技术特别适合于检测大型神经元群的协同活动。它已被用于确定大脑相变过程中的集体变量,即顺序参数。[36]
与其他方法的关系
对应分析(CA)是让-保罗·贝茨克雷开发的[37] ,主并且在概念上类似于PCA,但是缩放数据(应该是非负的),使得行和列被同等地对待。它传统上适用于列联表。CA将与该表相关的卡方统计分解为正交因子。 [38]轻松的解决因为CA是一种描述性技术,它可以应用于卡方统计是否合适的表。 CA有几种变体,包括去趋势对应分析和规范对应分析。一个特殊的扩展是多重对应分析,它可以被看作是分类数据的主成分分析的对应物。[39]
主成分分析创建的变量是原始变量的线性组合。新变量具有变量都是正交的特性。主成分分析转换可以作为聚类前的预处理步骤。主成分分析是一种以方差为中心的方法,试图重现变量的总方差,其中成分反映了变量的共同方差和唯一方差。主成分分析通常是为了减少数据(即,将变量空间转换为最佳因子空间),而不是为了检测潜在的结构或因子。
因子分析类似于主成分分析,因为因子分析还涉及变量的线性组合。与主成分分析不同,因子分析是一种以相关性为中心的方法,旨在重现变量之间的相互关系,其中因子“代表变量的同源误差,排除唯一方差”。[40]就相关矩阵而言,这对应于专注于解释非对角线项(即共享协方差),而主成分分析专注于解释位于对角线上的项。然而,另一个结果是,当试图重现对角线上的项时,主成分分析也倾向于相对较好地拟合非对角线相关性。[41]主成分分析和因子分析给出的结果在大多数情况下非常相似,但情况并非总是如此,而且存在一些结果显著不同的问题。当研究目的是检测数据结构(即潜在的结构或因素)或因果模型时,通常使用因子分析。
它是在[42][43]轻松的解决方案 k-均值聚类,由聚类指标指定,由主成分给出,主方向跨越的PCA子空间与聚类质心子空间相同。然而,主成分分析是对k-均值聚类有益的放松,并不是新的结果(例如,可参见[44]中的例子),并且很容易发现关于群质心子空间由主方向跨越的陈述的反例。[45]
非负矩阵分解(NMF)是一种只使用矩阵中非负元素的降维方法,因此在天文学中是一种有前途的方法。[46][46][46]在天体物理信号是非负的意义上。主成分分析分量彼此正交,而NMF分量都是非负的,因此构建了非正交基。
在PCA中,每个分量的贡献根据其相应特征值的大小进行排序,这相当于分析经验数据时的分数残差方差(FRV)。[46] 对NMF而言,其组成部分仅基于经验FRV曲线进行排名。[46]剩余分数特征值图,即, 作为部件号的函数 给定总数 PCA的分量有一个平坦的平台,没有捕获任何数据来去除准静态噪声,然后曲线迅速下降作为过度拟合的指示,捕获随机噪声。[46] NMF的FRV曲线持续下降 [46] ,当顺序构建NMF组件时,[46]指示准静态噪声的连续捕获;然后收敛到比PCA更高的水平[46],这表明NMF的过拟合属性不太合适。
一般化
主成分分析的一个特别的缺点是主要成分通常是所有输入变量的线性组合。稀疏主成分分析通过寻找只包含几个输入变量的线性组合克服了这个缺点。它扩展了经典的主成分分析方法,通过对输入变量增加稀疏性约束来降低数据维数。已经提出了几种方法,包括
本文综述了稀疏主成分分析方法和理论的发展及其在科学研究中的应用。[52]
大多数现代非线性降维方法的理论和算法根源都是主成分分析或K-均值。皮尔森最初的想法是采用一条直线(或平面),这将是一组数据点的“最佳拟合”。主曲线和流形。[53] 基给出主成分分析推广的自然几何框架,并通过显式构造一个用于数据逼近的嵌入流形,以及在流形上使用标准几何投影编码来扩展主成分分析的几何解释,如图1所示。另一个流行的推广是核主成分分析,它对应于在与正定核相关联的再生核希尔伯特空间中执行的主成分分析。
在多线性子空间学习中,[54] PCA被推广到直接从张量表示中提取特征的多线性PCA。模型预测编码是通过在张量的每个模式下迭代地执行主成分分析来解决的。主成分分析法已经应用于人脸识别、步态识别等领域。模型预测控制进一步扩展到不相关模型预测控制、非负模型预测控制和鲁棒模型预测控制。
N-主成分分析可以用诸如塔克分解, PARAFAC, 多因素分析,共惯性分析,STATIS和DISTATIS来执行。
虽然PCA找到了数学上的最佳方法(如最小化平方误差),但它仍然对产生大误差的数据中的异常值敏感,这是该方法首先试图避免的。因此,通常的做法是在计算主成分分析之前去除异常值。然而,在某些情况下,异常值可能很难识别。例如,在相关聚类等数据挖掘算法中,对聚类和离群点的分配事先是未知的。 最近提出的主成分分析的推广[55]基于加权PCA通过根据数据对象的估计相关性给它们分配不同的权重来提高鲁棒性。在L1-规范公式(L1-主成分分析)中也提出了主成分分析的抗离群值版本。
通过在低秩和稀疏矩阵中分解的鲁棒主成分分析(RPCA)是主成分分析的一种改进,对于严重破坏的观测效果良好。
相似技术
独立成分分析(ICA)与主成分分析(main component analysis)的问题类似,但发现可加性分离的成分,而不是逐次逼近。
给定一个矩阵 ,试图将它分解成两个矩阵 。与PCA和ICA等技术的一个关键区别是 被约束为0。这里 被称为调节层。虽然通常这种分解可以有多个解,但它们证明了如果满足以下条件:
则分解是唯一的,直到乘以标量。
软件/源代码
pca
命令或通过 princomp()
功能。pca
多元统计软件包中的函数princomp
和 pca
(R2012b)给出了主成分,而函数 pcares
给出了低秩PCA近似的残差和重构矩阵。g03aa
例程(在两个Fortran版本的库中都有)。princomp
给出了主成分。DBMS_DATA_MINING.SVDS_SCORING_MODE
通过指定设置值 SVDS_SCORING_PCA
princomp
和 prcomp
可用于主成分分析; prcomp
使用奇异值分解,通常给出更好的数值精度。一些在R中实现PCA的包包括但不限于: ade4
, vegan
, ExPosition
, dimRed
,和 FactoMineR
。^Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine. 2 (11): 559–572. doi:10.1080/14786440109462720..
^Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520. Hotelling, H (1936). "Relations between two sets of variates". Biometrika. 28 (3/4): 321–377. doi:10.2307/2333955. JSTOR 2333955..
^Abdi. H. & Williams, L.J. (2010). "Principal component analysis". Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433–459. arXiv:1108.4372. doi:10.1002/wics.101..
^Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-340-80763-6.[页码请求].
^Barnett, T. P. & R. Preisendorfer. (1987). "Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis". Monthly Weather Review. 115 (9): 1825. doi:10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2..
^Hsu, Daniel, Sham M. Kakade, and Tong Zhang (2008). "A spectral algorithm for learning hidden markov models". arXiv:0811.4413. Bibcode:2008arXiv0811.4413H.CS1 maint: Multiple names: authors list (link).
^Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4.
^Fukunaga, Keinosuke (1990). Introduction to Statistical Pattern Recognition. Elsevier. ISBN 978-0-12-269851-4..
^Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). "Measuring systematic changes in invasive cancer cell shape using Zernike moments". Integrative Biology. 8 (11): 1183–1193. doi:10.1039/C6IB00100A. PMID 27735002..
^Jolliffe, I. T. (2002). Principal Component Analysis, second edition Springer-Verlag. ISBN 978-0-387-95442-4..
^Leznik, M; Tofallis, C. 2005 Estimating Invariant Principal Components Using Diagonal Regression..
^Blanton, Michael R.; Roweis, Sam (2007). "K-corrections and filter transformations in the ultraviolet, optical, and near infrared". The Astronomical Journal. 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127..
^Zhu, Guangtun B. (2016-12-19). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM]..
^Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Non-negative Matrix Factorization: Robust Extraction of Extended Structures". The Astrophysical Journal. 852 (2): 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2..
^Pueyo, Laurent (2016). "Detection and Characterization of Exoplanets using Projections on Karhunen Loeve Eigenimages: Forward Modeling". The Astrophysical Journal. 824 (2): 117. arXiv:1604.06097. Bibcode:2016ApJ...824..117P. doi:10.3847/0004-637X/824/2/117..
^Geiger, Bernhard; Kubin, Gernot (January 2013). "Signal Enhancement as Minimization of Relevant Information Loss". Proc. ITG Conf. On Systems, Communication and Coding. arXiv:1205.6935. Bibcode:2012arXiv1205.6935G..
^"Engineering Statistics Handbook Section 6.5.5.2". Retrieved 19 January 2015..
^A.A. Miranda, Y.-A. Le Borgne, and G. Bontempi. New Routes from Minimal Approximation Error to Principal Components, Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer.
^"SAS/STAT(R) 9.3 User's Guide"..
^eig function Matlab documentation.
^MATLAB PCA-based Face recognition software.
^Roweis, Sam. "EM Algorithms for PCA and SPCA." Advances in Neural Information Processing Systems. Ed. Michael I. Jordan, Michael J. Kearns, and Sara A. Solla The MIT Press, 1998..
^Geladi, Paul; Kowalski, Bruce (1986). "Partial Least Squares Regression:A Tutorial". Analytica Chimica Acta. 185: 1–17. doi:10.1016/0003-2670(86)80028-9..
^Kramer, R. (1998). Chemometric Techniques for Quantitative Analysis. New York: CRC Press..
^Andrecut, M. (2009). "Parallel GPU Implementation of Iterative PCA Algorithms". Journal of Computational Biology. 16 (11): 1593–1599. arXiv:0811.1081. doi:10.1089/cmb.2008.0221. PMID 19772385..
^The Pricing and Hedging of Interest Rate Derivatives: A Practical Guide to Swaps, J H M Darbyshire, 2016, ISBN 978-0995455511.
^Warmuth, M. K.; Kuzmin, D. (2008). "Randomized online PCA algorithms with regret bounds that are logarithmic in the dimension". Journal of Machine Learning Research. 9: 2287–2320..
^Giorgia Pasini (2017); Principal Component Analysis for Stock Portfolio Management. International Journal of Pure and Applied Mathematics. Volume 115 No. 1 2017, 153-167.
^Libin Yang. An Application of Principal Component Analysis to Stock Portfolio Management. Department of Economics and Finance, University of Canterbury, January 2015..
^CA Hargreaves, Chandrika Kadirvel Mani (2015). [files.aiscience.org/journal/article/pdf/70210034.pdf The Selection of Winning Stocks Using Principal Component Analysis]. American Journal of Marketing Research. Vol. 1, No. 3, 2015, pp. 183-188.
^Brenner, N., Bialek, W., & de Ruyter van Steveninck, R.R. (2000)..
^Jirsa, Victor; Friedrich, R; Haken, Herman; Kelso, Scott (1994). "A theoretical model of phase transitions in the human brain". Biological Cybernetics. 71 (1): 27–35. doi:10.1007/bf00198909. PMID 8054384..
^Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod..
^Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. London: Academic Press. ISBN 978-0-12-299050-2..
^Le Roux; Brigitte and Henry Rouanet (2004). Geometric Data Analysis, From Correspondence Analysis to Structured Data Analysis. Dordrecht: Kluwer..
^Timothy A. Brown. Confirmatory Factor Analysis for Applied Research Methodology in the social sciences. Guilford Press, 2006.
^I.T. Jolliffe. Principal Component Analysis, Second Edition. Chapter 7. 2002.
^H. Zha; C. Ding; M. Gu; X. He; H.D. Simon (Dec 2001). "Spectral Relaxation for K-means Clustering" (PDF). Neural Information Processing Systems Vol.14 (NIPS 2001): 1057–1064..
^Chris Ding; Xiaofeng He (July 2004). "K-means Clustering via Principal Component Analysis" (PDF). Proc. Of Int'l Conf. Machine Learning (ICML 2004): 225–232..
^Drineas, P.; A. Frieze; R. Kannan; S. Vempala; V. Vinay (2004). "Clustering large graphs via the singular value decomposition" (PDF). Machine Learning. 56 (1–3): 9–33. doi:10.1023/b:mach.0000033113.59016.96. Retrieved 2012-08-02..
^Cohen, M.; S. Elder; C. Musco; C. Musco; M. Persu (2014). "Dimensionality reduction for k-means clustering and low rank approximation (Appendix B)". arXiv:1410.6801. Bibcode:2014arXiv1410.6801C..
^Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Sparse principal component analysis" (PDF). Journal of Computational and Graphical Statistics. 15 (2): 262–286. CiteSeerX 10.1.1.62.580. doi:10.1198/106186006x113430..
^Alexandre d’Aspremont; Laurent El Ghaoui; Michael I. Jordan; Gert R. G. Lanckriet (2007). "A Direct Formulation for Sparse PCA Using Semidefinite Programming" (PDF). SIAM Review. 49 (3): 434–448. arXiv:cs/0406021. doi:10.1137/050645506..
^Michel Journee; Yurii Nesterov; Peter Richtarik; Rodolphe Sepulchre (2010). "Generalized Power Method for Sparse Principal Component Analysis" (PDF). Journal of Machine Learning Research. 11: 517–553. arXiv:0811.4724. Bibcode:2008arXiv0811.4724J. CORE Discussion Paper 2008/70..
^Peter Richtarik; Martin Takac; S. Damla Ahipasaoglu (2012). "Alternating Maximization: Unifying Framework for 8 Sparse PCA Formulations and Efficient Parallel Codes". arXiv:1212.4137 [stat.ML]..
^Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). "Detection and Characterization of Exoplanets and Disks Using Projections on Karhunen-Loève Eigenimages". The Astrophysical Journal Letters. 755 (2): L28. arXiv:1207.4197. Bibcode:2012ApJ...755L..28S. doi:10.1088/2041-8205/755/2/L28..
^Yue Guan; Jennifer Dy (2009). "Sparse Probabilistic Principal Component Analysis" (PDF). Journal of Machine Learning Research Workshop and Conference Proceedings. 5: 185..
^Hui Zou; Lingzhou Xue (2018). "A Selective Overview of Sparse Principal Component Analysis". Proceedings of the IEEE. 106 (8): 1311–1320. doi:10.1109/JPROC.2018.2846588..
^A. N. Gorban, A. Y. Zinovyev, Principal Graphs and Manifolds, In: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods and Techniques, Olivas E.S. et al Eds. Information Science Reference, IGI Global: Hershey, PA, USA, 2009. 28–59..
^Wang, Y.; Klijn, J. G.; Zhang, Y.; Sieuwerts, A. M.; Look, M. P.; Yang, F.; Talantov, D.; Timmermans, M.; Meijer-van Gelder, M. E.; Yu, J.; et al. (2005). "Gene expression profiles to predict distant metastasis of lymph-node-negative primary breast cancer". The Lancet. 365 (9460): 671–679. doi:10.1016/S0140-6736(05)17947-1. PMID 15721472. Data online.
^Zinovyev, A. "ViDaExpert – Multidimensional Data Visualization Tool". Institut Curie. Paris. (free for non-commercial use).
^Emmanuel J. Candes; Xiaodong Li; Yi Ma; John Wright (2011). "Robust Principal Component Analysis?". Journal of the ACM. 58 (3): 11. arXiv:0912.3599. doi:10.1145/1970392.1970395..
^Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2008). A General Framework for Increasing the Robustness of PCA-Based Correlation Clustering Algorithms. Scientific and Statistical Database Management. Lecture Notes in Computer Science. 5069. pp. 418–435. CiteSeerX 10.1.1.144.4864. doi:10.1007/978-3-540-69497-7_27. ISBN 978-3-540-69476-2..
^Markopoulos, Panos P.; Karystinos, George N.; Pados, Dimitris A. (October 2014). "Optimal Algorithms for L1-subspace Signal Processing". IEEE Transactions on Signal Processing. 62 (19): 5046–5058. arXiv:1405.6785. Bibcode:2014ITSP...62.5046M. doi:10.1109/TSP.2014.2338077..
^"Network component analysis: Reconstruction of regulatory signals in biological systems" (PDF). Retrieved February 10, 2015..
^"Principal Components Analysis". Institute for Digital Research and Education. UCLA. Retrieved 29 May 2018..
暂无