热门问题
时间线
聊天
视角
斯皮爾曼等級相關係數
統計學名詞 来自维基百科,自由的百科全书
Remove ads
斯皮爾曼等級相關係數(簡稱等級相關係數,或稱秩相關係數,英語:Spearman's rank correlation coefficient或Spearman's ρ),在統計學中,常以希臘字母(rho)或以表示,這一相關係數以查爾斯·斯皮爾曼之名命名。它是衡量兩個變量的相關性的無母數指標。它利用單調函數評價兩個統計變量的相關性。若數據中沒有重複值,且當兩變量完全單調相關時,斯皮爾曼相關係數為+1或−1。



Remove ads
定義和計算
斯皮爾曼相關係數的定義為等級變量之間的皮爾森相關係數。[1]
對於樣本容量為n的樣本,將n個原始數據轉換成等級數據,則相關係數為
其中
- 是皮爾森積動差相關係數,但使用等級變量來計算,
- 為等級變量的共變異數,
- 和為等級變量的標準差。
通常,對於數據中相同的值,其等級數等於它們按值升序排列的所處位置的平均值。[2]如下表所示:
當所有的等級數值都為整數時,可以透過以下簡單的步驟計算等級相關係數:[1][3]
其中
- 為每組觀測中兩個變量的等級差值,
- n為觀測數。
證明
當數據中存在相等的數值時,使用該簡化公式會得到錯誤結果:只有在兩組變量中所有數值不重複時,才有(根據偏誤變異數計算)。第一個方程式(透過標準差進行歸一化)即使在排名標準化為[0, 1](「相對排名」)的情況下仍可使用,因為它對平移和線性縮放都不敏感。
對於截取的數據也不應使用簡化公式。即,當希望計算前X條記錄的等級相關係數時,應當使用前述的皮爾森積動差相關係數公式。[4]
Remove ads
相關度量
度量一對觀測數據的統計相關性還有其他的幾種度量指標。其中最常用的是皮爾森積動差相關係數。
斯皮爾曼相關也可稱為「級別相關」(grade correlation);[5] 也就是說, 被觀測數據的「等級」被替換成 「級別」。在連續的分布中, 被觀測數據的級別,通常總是小於等級的一半。然而,在這個案例中,級別和等級相關係數是一致的。更一般的, 被觀測數據的「級別」 與估計的母體樣本的比值小於給定的值,即被觀測值的一半。也就是說,它是相應的等級係數的一種可能的解決方案。雖然不常用,「級別相關」還是仍然有被使用。[6]
解釋
斯皮爾曼相關係數表明X(自變數)和Y(應變數)的相關方向。如果當X增加時,Y趨向於增加,則斯皮爾曼相關係數為正。如果當X增加時,Y趨向於減少,則斯皮爾曼相關係數為負。斯皮爾曼相關係數為0表明當X增加時Y沒有任何趨向性。當X和Y越來越接近完全的單調相關時,斯皮爾曼相關係數會在絕對值上增加。當X和Y完全單調相關時,斯皮爾曼相關係數的絕對值為1。完全的單調遞增關係意味著對任意兩對數據Xi, Yi和Xj, Yj,有Xi − Xj和Yi − Yj總是同號。完全的單調遞減關係意味著對任意兩對數據Xi, Yi和Xj, Yj,有Xi − Xj和Yi − Yj總是異號。
斯皮爾曼相關係數經常被稱作「無母數」的,其中有兩層含義。首先,當X和Y的關係由任意單調函數描述時,則它們是完全皮爾森相關的。與此相應的,皮爾森相關係數只能給出由線性方程式描述的X和Y的相關性。其次,斯皮爾曼不需要先驗知識(也就是說,知道其參數)便可以準確獲取X和Y的採樣機率分布。
示例
在此例中,我們要使用下表所給出的原始數據計算一個人的智商和其每周看電視的小時數的相關性(數據為虛構)。
首先,我們必須根據以下步驟計算出,如下表所示。
- 排列第一列數據()。創建新列 並賦以等級值1、2、3……n。
- 然後,排列第二列數據()。創建第四列 並相似地賦以等級值1、2、3……n。
- 創建第五列,填入兩個等級列(和)的差值。
- 創建最後一列填入的平方。

根據計算。樣本容量n為10。將這些值帶入方程式
得ρ = −0.175757575...,p-value = 0.627188(使用t分布)
該數值接近0,表明儘管看電視時間和智商似乎呈負相關,但兩個變量之間的關係很弱。在原始數據中存在相同數值的情況下,不應使用此公式,而應當用排名計算皮爾森相關係數(如上文所述)。
Remove ads
顯著性的確定
一種確定被觀測數據的ρ值是否顯著不為零(r總是有1 ≥ r ≥ −1)的方法是計算它是否大於r的機率,作為虛無假說,並使用排列檢定。這種方法的優勢在於它考慮了樣本中的重複出現的數據個數,以及在計算等級相關性時處理它們的方式。
另一種方法是使用皮爾森積動差中使用到的費雪轉換。也就是,ρ的信賴區間和假說檢定可以透過費雪轉換獲得
如果F(r)是r的費雪轉換,則
是r的z-值,其中,r在統計獨立性(ρ = 0)[7][8]的虛無假說下近似服從標準常態分布。
顯著性為
其在虛無假說下近似服從自由度為n − 2的t分布。[9] A justification for this result relies on a permutation argument.[10]
一般地,斯皮爾曼相關係數在有三個或更多條件的情況下是有用的。並且,它預測觀測數據有一個特定的順序。例如,在同一任務中,一系列的個體會被嘗試多次,並預測在多次嘗試過程中,性能會得到提升。在這種情況下,對條件間趨勢的顯著性檢定由E. B. Page[11]發展了,並通常稱為給定序列下的Page趨勢檢定。
Remove ads
基於斯皮爾曼相關係數的一致性分析
經典的一致性分析是一種統計方法,它給兩個標稱變量賦給一個分數。透過這種方法,兩個變量間的皮爾森相關係數被最大化了。
有一種被稱為級別相關分析的等價方法,它能夠最大化斯皮爾曼相關係數或肯德爾等級相關係數。[12]
參見
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads