卡方檢定

統計測試 From Wikipedia, the free encyclopedia

卡方檢定

Remove ads

卡方檢定（粵拼：kaa1 fong1 gim2 ding6；參見英文：Chi-squared，χ²）係統計學上一種假說檢定方法，成日用嚟分析離散變量之間有冇關聯，尤其係一啲冇得分數值高低嘅變量。研究者會透過列聯表，展示唔同類別組合嘅頻數，再計出實際觀察值同預期值之間差幾遠。運用呢個值加上是次分析嘅自由度，研究者可以檢定兩個變量間係咪彼此獨立。

Thumb — 卡方分佈，喺唔同自由度值下條線嘅樣；打戙軸係 p 值而打橫軸係計到嘅卡次方。

卡方檢定常見於社會科學、心理學同生物統計學等領域嘅研究，檢定離散變量（譬如係性別、職業同埋族裔等等）之間有冇關聯。而且某啲進階嘅統計模型方法仲會用卡方統計量評估模型嘅擬合度，例如結構方程模型就係噉。

一般嚟講，卡方檢定係用嚟應付離散而且冇分咩數值高低嘅變量。假如研究緊嘅變量係連續嘅，例如身高或者體溫呀噉，統計相關同迴歸模型等嘅檢定方法就會比較啱用。

基礎概念

睇埋：列聯表、量度層次同分類變數

卡方檢定係用嚟分析列聯表^{[註 1]}嘅。喺統計學上，列聯表係表格一種，用嚟展現變量間嘅多變量頻率分佈。最基本嗰款列聯表會有兩個變量，每個變量有若干個（數量有限嘅）可能值，而列聯表每一格就表示有幾多個個案具有嗰格所示嘅特性^[1]^[2]。舉例說明：

變量：性別以及左撓jaau1定右撓，當中性別有兩個可能值，撓都係有兩個可能值。下表每格表示樣本中有幾多人係左撓男、幾多人係右撓男... 如此類推。

More information 撓性別, 右撓 ...

變量一：教育程度（小學、中學、大學；三個可能數值）；變量二：主要嗜好（睇書、打機、做運動；三個可能數值）。畫做列聯表：

More information 主要嗜好教育程度, 睇書 ...

變量一：交通方式（行路、單車、巴士、私家車；四個可能數值）；變量二：居住區域（市中心、近郊、遠郊；三個可能數值）。畫做列聯表：

More information 居住區域交通方式, 市中 ...

好似呢種噉嘅表格，特別適用於用咗名目量度級數嘅變量，而呢種變量喺社會科學中好常見^[3]。

Remove ads

假說檢定

睇埋：假說檢定

設而家有個樣本，樣本中有 n 咁多個個體，研究者將啲個體分做 k 個互斥嘅類別，當中 x_i 係指第 i 個類別（i = 1,2... k）中嘅個體數量。例如將樣本按性別分做男同女（k = 2），或者按居住地分做市中心、近郊、遠郊（k = 3）呀噉。噉而家研究者想做假說檢定，性別同居住地呢兩個變量之間有冇啦掕，虛無假說會主張啲變量之間完全冇啦掕，所以性別唔會影響居住地嘅分佈，而居住地亦唔會影響性別嘅分佈。於是研究者就要計以下呢條數^[4]：

X^{2}=\sum _{i=1}^{k}{\frac {(x_{i}-m_{i})^{2}}{m_{i}}}

，當中

$X^{2}$ 係所謂嘅卡次方（英文：Chi-squared；參照希臘字母 Χ，呢隻字母讀音近似粵拼：kaai1），簡稱卡方，係檢定用嘅統計量。
研究者要同列聯表嘅每一格計
- $x_{i}$ 係嗰格實際觀察到嘅數值。
- $m_{i}$ 係嗰格嘅預期數值，即係假如虛無假說正確，嗰格嘅值應該係乜。

卡次方數值愈大，就愈表示列聯表上嘅實際值，同「如果兩個變量冇啦掕，會觀察到嘅值」爭好遠。因此，研究者由數據計出嘅卡次方數值愈大，佢哋就愈有理由否決虛無假說。

假設有一座城市，有 500,000 人住，城市分做四個街區：A、B、C 同埋 D。依家政府想做城市規劃研究，研究人員做隨機抽樣，搵咗 650 個人返嚟做樣本，並且記錄樣本中嘅人嘅職業類型（分做白領、藍領同埋無領）。虛無假設會話，一個人住邊區同佢嘅職業類型之間係獨立嘅，而佢哋所收集到嘅數據如下：

More information A, B ...

假設個樣本能夠準確代表全城嘅居民。全個樣本中有 349/650 = 53.69% 咁多嘅人係白領，所以住喺 A 區（150 人）又係白領嘅人，預期數量會係：

150\times {\frac {349}{650}}\approx 80.54

噉研究人員就可以望住嗰格（A 區白領），計出：

{\frac {\left({\text{實  際  值   }}-{\text{ 預  期  值   }}\right)^{2}}{\text{   預  期  值   }}}={\frac {\left(90-80.54\right)^{2}}{80.54}}\approx 1.11

用同一道理，計晒所有格嘅「實際與預期差距」，得出嘅總數（卡次方）為：

\approx 24.57

喺虛無假說成立嘅情況下，呢個統計量會大約服從卡方分佈，其自由度^{[註 2]}為：

({\text{列  數  }}-1)\times ({\text{行  數  }}-1)=(3-1)(4-1)=6

如果計出嚟嘅卡次方（根據呢個卡方分佈同自由度值嚟講）「大得滯」，研究人員就可以拒絕虛無假設。即係話佢會有理由話研究緊嗰兩個變量（居住地同職業類型）之間有顯著嘅關係。好似噉嘅卡次方計算，喺社科同生物統計學上可以用嚟研究好多用名目量度嘅變量^[5]。

某啲進階嘅統計模型都會用到卡次方，例如結構方程模型就會使用卡次方，評估個模型預計嘅協方差矩陣同數據實際觀察到嘅相差幾大，藉此評估個模型有幾合乎手上嘅數據^[6]。

Remove ads

睇埋

註釋

[註 1]
英文：contingency table / crosstab
[註 2]
呢種自由度計法嘅解釋：假想總數已知，如果思考者知道每行嘅總數同每列嘅總數；一旦知道咗 (R - 1)(C - 1) 個格嘅數值，其餘嘅格嘅數值就會被「固定」。

引咗

Loading content...

外拎

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads