主成分分析

在多變量分析中，主成分分析（英語：Principal components analysis，縮寫：PCA）是一種統計分析、簡化數據集的方法。它利用正交轉換來對一系列可能相關的變量的觀測值進行線性轉換，從而投影為一系列線性不相關變量的值，這些不相關變量稱為主成分（Principal Components）。具體地，主成分可以看做一個線性方程式，其包含一系列線性係數來指示投影方向。PCA對原始數據的正則化或預處理敏感（相對縮放）。

Thumb image — 一個高斯分布，平均值為(1, 3)，標準差在(0.878, 0.478)方向上為3、在其正交方向上為1的主成分分析。黑色的兩個向量是此分布的共變異數矩陣的特徵向量，其長度為對應的特徵值之平方根，並以分布的平均值為原點。

基本思想：

將坐標軸中心移到數據的中心，然後旋轉坐標軸，使得數據在C1軸上的變異數最大，即全部n個數據個體在該方向上的投影最為分散。意味著更多的資訊被保留下來。C1成為第一主成分。
C2第二主成分：找一個C2，使得C2與C1的共變異數（相關係數）為0，以免與C1資訊重疊，並且使數據在該方向的變異數儘量最大。
以此類推，找到第三主成分，第四主成分……第p個主成分。p個隨機變數可以有p個主成分^[1]。

主成分分析經常用於減少數據集的維數，同時保留數據集當中對變異數貢獻最大的特徵。這是通過保留低維主成分，忽略高維主成分做到的。這樣低維成分往往能夠保留住數據的最重要部分。但是，這也不是一定的，要視具體應用而定。由於主成分分析依賴所給數據，所以數據的準確性對分析結果影響很大。

主成分分析由卡爾·皮爾森於1901年發明^[2]，用於分析數據及建立數理模型，在原理上與主軸定理（英語：Principal axis theorem）相似。之後在1930年左右由哈羅德·霍特林獨立發展並命名。依據應用領域的不同，在信號處理中它也叫做離散K-L 轉換（discrete Karhunen–Loève transform (KLT)）。其方法主要是通過對共變異數矩陣進行特徵分解^[3]，以得出數據的主成分（即特徵向量）與它們的權值（即特徵值^[4]）。PCA是最簡單的以特徵量分析多元統計分布的方法。其結果可以理解為對原數據中的變異數做出解釋：哪一個方向上的數據值對變異數的影響最大？換而言之，PCA提供了一種降低數據維度的有效辦法；如果分析者在原數據中除掉最小的特徵值所對應的成分，那麼所得的低維度數據必定是最優化的（也即，這樣降低維度必定是失去訊息最少的方法）。主成分分析在分析複雜數據時尤為有用，比如人臉識別。

PCA是最簡單的以特徵量分析多元統計分布的方法。通常，這種運算可以被看作是揭露數據的內部結構，從而更好地展現數據的變異度。如果一個多元數據集是用高維數據空間之坐標系來表示的，那麼PCA能提供一幅較低維度的圖像，相當於數據集在訊息量最多之角度上的一個投影。這樣就可以利用少量的主成分讓數據的維度降低了。

PCA 跟因子分析密切相關。因子分析通常包含更多特定領域底層結構的假設，並且求解稍微不同矩陣的特徵向量。

PCA 也跟典型相關分析（CCA）有關。CCA定義的坐標系可以最佳地描述兩個數據集之間的交叉共變數，而PCA定義了新的正交坐標系，能最佳地描述單個數據集當中的變異數。

[1]

[2]

[3]

[4]