在統計學中,皮爾森積動差相關係數(英語:Pearson product-moment correlation coefficient,縮寫:PPMCC,或PCCs[1][註 1],有時簡稱相關係數)用於度量兩組數據的變量X和Y之間的線性相關的程度。它是兩個變量的共變異數與其標準差的乘積之比; 因此,它本質上是共變異數的歸一化度量,因此結果始終具有介於-1和1之間的值。與共變異數本身一樣,該度量只能反映變量的線性相依性,而忽略了許多其他類型的關係或相關性。舉個簡單的例子,可以預期高中青少年樣本的年齡和身高的皮爾森積動差相關係數顯著大於0,但小於1(因為1表示不切實際的完美相關性)。
母體和樣本皮爾森係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上[註 3],或者雙變量分布完全在直線上(計算母體皮爾森係數的情況),則相關係數等於1或-1。皮爾森係數是對稱的:corr(X,Y) = corr(Y,X)。
皮爾森相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變量 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關係數[註 4]。我們發現更一般的線性轉換則會改變相關係數:參見之後章節對該特性應用的介紹。
由於μX = E(X), σX2 = E[(X − E(X))2] = E(X2) − E2(X),Y也類似, 並且
故相關係數也可以表示成
對於樣本皮爾森相關係數:
以上方程式給出了計算樣本皮爾森相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定的。
皮爾森相關係數的變化範圍為-1到1。係數的值為1意味著X和 Y可以很好的由直線方程式來描述,所有的數據點都很好的落在一條直線上,且 Y 隨著 X 的增加而增加。係數的值為−1意味著所有的數據點都落在直線上,且 Y 隨著 X 的增加而減少。係數的值為0意味著兩個變量之間沒有線性關係。
更一般的, 我們發現,若且唯若 Xi 和 Yi 均落在他們各自的均值的同一側, 則(Xi − X)(Yi − Y) 的值為正。 也就是說,如果Xi 和 Yi 同時趨向於大於, 或同時趨向於小於他們各自的均值,則相關係數為正。 如果 Xi 和 Yi 趨向於落在他們均值的相反一側,則相關係數為負。
對於沒有進行中心化的數據, 相關係數與兩條可能的迴歸線y=gx(x) 和 x=gy(y) 夾角的餘弦值一致。
對於中心化過的數據(也就是說, 數據移動一個樣本平均值以使其均值為0),相關係數也可以被視作由兩個隨機變數向量夾角 的餘弦值(見下方)。
從一個數據集中可以確定出非中心化的相關係數 (non-Pearson-compliant) 和中心化的相關係數二者。例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, 和 18% 。 令 x 和 y 分別等於包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角 (參見 數量積), 未中心化 的相關係數是:
我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x。 於是,皮爾森相關係數應該等於1。將數據中心化 (通過E(x) = 3.8移動 x 和通過 E(y) = 0.138 移動 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 從中,
More information 相關性, 負 ...
相關性 |
負 |
正
|
無 |
−0.09 to 0.0 |
0.0 to 0.09
|
弱 |
−0.3 to −0.1 |
0.1 to 0.3
|
中 |
−0.5 to −0.3 |
0.3 to 0.5
|
強 |
−1.0 to −0.5 |
0.5 to 1.0
|
Close
一些著作的作者[11][12] 給出了某些解釋相關係數的指南。 然而, 所有這些標準從某種意義上說是武斷的和不嚴格的。[12] 對相關係數的解釋是依賴於具體的應用背景和目的的。 例如,若是在運用高性能的儀器來驗證一個物理定律實驗這樣的應用背景下,0.9的相關係數可能是很低的。但如果是應用在社會科學中,由於社會科學受到各種複雜多變因素影響,0.9的相關係數是相當高的。
皮爾森距離度量的是兩個變量X和Y,它可以根據皮爾森係數定義成[13]
我們可以發現,皮爾森係數落在,而皮爾森距離落在。
基於皮爾森相關係數的統計推論通常關注以下兩個目標。
- 驗證虛無假說是否為真,即相關係數 ρ 是否等於 0, 該相關係數使用的是樣本相關係數 r。
- 在給定的信心水準α之下,構建一個圍繞r的信賴區間。
顯著性檢定提供了一種假說檢定和構造信賴區間的直接方法。
對皮爾森相關係數的顯著性檢定包括以下兩個步驟:
- 隨機地將原始的數據對 (xi, yi)重新定義成數據集 (xi, yi′), 其中 i′ 表示數列 {1,...,n}。 數列 i′ 的選取是隨機的, 以相同的機率落在 n! 種可能的數列中。這等價於隨機地"不可重複地"從數列{1,..., n}中選取 i′。一種相近的且合乎情理的方法(自助抽樣法)是「可重複地」從數列{1,..., n}中選取 i 和 i′
- 由隨機數據構造相關係數r。
為了完成顯著性檢定,需要多次重複步驟(i)和(ii) 。顯著性檢定的P值是由測試數據除以步驟(ii)得到的r,其中r大於由原始數據計算出的皮爾森相關係數。在這裡「大」可能是絕對值比較大或者是數值比較大,這取決於測試使用的是雙尾檢定或者是單尾檢定。
自助抽樣法可以被用來構造皮爾森係數的信賴區間。在"無母數"的自助抽樣法中,「可重複」地從觀測數據集n中重新採樣n 對的 (xi, yi) 數據,用來計算相關係數r。這個過程重複了大量次數,。重新採樣後數據的 r值的分布被用來估計統計學上的樣本分布。ρ的95%的信賴區間可以被定義成重新採樣樣本 r值的%2.5到%97.5之間。
對於近似高斯分布的數據,皮爾森相關係數的樣本分布近似於自由度為N − 2的t分布。特別地,如果兩個變量服從雙變量常態分布,變量
也會服從不相關的t分布。[14] 如果樣本容量不是特別小,這個結論也大致成立,即便觀測數據不是常態分布的。[15]如果需要構建信賴區間和進行有力的分析,還需要採用如下的可逆轉換
或者,也可以採用大量採樣數據的方法。
早期對樣本相關係數的研究得益於R. A. Fisher[16][17]和A. K. Gayen.[18]的工作。
另一篇早期的論文[19] 給出了在小樣本的情況下母體相關係數 ρ的圖表, 並討論了相關的計算方法。
準確的雙變量樣本相關係數的分布是[20][21]
其中 是伽瑪函數, 是高斯超幾何函數。
注意到 , 因此 r 是的一個偏誤估計。一種獲得不偏估計的方法是解的方程式 。 然而,解 是次優的。 一種不偏估計, 可以從 n較大情況下的最小變異數和偏誤序列 , 通過最大化 , 也就是獲得。
特殊情況下,當 時,分布可以被寫成
其中 是貝塔函數。
實際應用中, 與ρ相關的信賴區間和假說檢定通常是通過費雪轉換獲得
如果F(r)是r的費雪轉換,n 是樣本容量,那麼F(r)近似服從常態分布
- and standard error
也就是Z-分數是
對 進行虛無假說,可以設想樣本數據對是獨立同分布並且服從雙變量常態分布。因此P值估計可以從常態分布機率表中獲得。比如,如果觀測數據 z = 2.2,並且要用雙尾p值對 進行虛無假說檢定,p值是 2·Φ(−2.2) = 0.028, 其中Φ是常態分布的累積分布函數。
為了獲得ρ的信賴區間,首先,我們應該計算 F()的信賴區間:
通過可逆Fisher轉換可以獲得相關尺度上的區間。
舉例來說,假設我們觀測到 r = 0.3,樣本容量 n=50,並且我們期望獲得ρ的95%的信賴區間。轉換後的值是artanh(r) = 0.30952,所以在轉換尺度上的信賴區間是 0.30952 ± 1.96/√47,或者 (0.023624, 0.595415)。轉換回相關尺度上是 (0.024, 0.534)。
樣本相關係數的平方,亦稱作決定係數,利用簡單線性迴歸估計由X引起的Y的變化。一開始,Yi圍繞它們平均值上的變化可以分解成
其中 是作迴歸分析時的適應值。 整理後得
兩個被加數是由X (右邊)引起的Y的變化和不是由X(左邊)引起的變化。
接下來, 我們利用最小變異數迴歸模型, 使 和 的樣本共變異數為0。 於是, 觀測數據和適應值的樣本相關係數可以被寫成
於是
是由X的線性方程式引起的Y的平均變化。