卡方檢定

統計測試 From Wikipedia, the free encyclopedia

卡方檢定
Remove ads

卡方檢定粵拼kaa1 fong1 gim2 ding6;參見英文Chi-squaredχ2)係統計學上一種假說檢定方法,成日用嚟分析離散變量之間有冇關聯,尤其係一啲冇得分數值高低嘅變量。研究者會透過列聯表,展示唔同類別組合嘅頻數,再計出實際觀察值同預期值之間差幾遠。運用呢個值加上是次分析嘅自由度,研究者可以檢定兩個變量間係咪彼此獨立

Thumb
卡方分佈,喺唔同自由度值下條線嘅樣;打戙軸係 p 值而打橫軸係計到嘅卡次方。

卡方檢定常見於社會科學心理學生物統計學等領域嘅研究,檢定離散變量(譬如係性別職業同埋族裔等等)之間有冇關聯。而且某啲進階嘅統計模型方法仲會用卡方統計量評估模型嘅擬合度,例如結構方程模型就係噉。

一般嚟講,卡方檢定係用嚟應付離散而且冇分咩數值高低嘅變量。假如研究緊嘅變量係連續嘅,例如身高或者體溫呀噉,統計相關迴歸模型等嘅檢定方法就會比較啱用。

基礎概念

睇埋:列聯表量度層次

卡方檢定係用嚟分析列聯表[註 1]嘅。喺統計學上,列聯表係表格一種,用嚟展現變量間嘅多變量頻率分佈。最基本嗰款列聯表會有兩個變量,每個變量有若干個(數量有限嘅)可能值,而列聯表每一格就表示有幾多個個案具有嗰格所示嘅特性[1][2]。舉例說明:

變量:性別以及jaau1定右撓,當中性別有兩個可能值,撓都係有兩個可能值。下表每格表示樣本中有幾多人係左撓男、幾多人係右撓男... 如此類推。
More information 撓性別, 右撓 ...
變量一:教育程度(小學、中學、大學;三個可能數值);變量二:主要嗜好(睇書、打機、做運動;三個可能數值)。畫做列聯表:
More information 主要嗜好教育程度, 睇書 ...
變量一:交通方式(行路、單車、巴士、私家車;四個可能數值);變量二:居住區域(市中心、近郊、遠郊;三個可能數值)。畫做列聯表:
More information 居住區域交通方式, 市中 ...

好似呢種噉嘅表格,特別適用於用咗名目量度級數嘅變量,而呢種變量喺社會科學中好常見[3]

Remove ads

假說檢定

睇埋:假說檢定

設而家有個樣本,樣本中有 n 咁多個個體,研究者將啲個體分做 k 個互斥類別,當中 xi 係指第 i 個類別(i = 1,2... k)中嘅個體數量。例如將樣本按性別分做(k = 2),或者按居住地分做市中心近郊遠郊(k = 3)呀噉。噉而家研究者想做假說檢定,性別同居住地呢兩個變量之間有冇啦掕,虛無假說會主張啲變量之間完全冇啦掕,所以性別唔會影響居住地嘅分佈,而居住地亦唔會影響性別嘅分佈。於是研究者就要計以下呢條數[4]

,當中
  • 係所謂嘅卡次方英文Chi-squared;參照希臘字母 Χ,呢隻字母讀音近似粵拼kaai1),簡稱卡方,係檢定用嘅統計量
  • 研究者要同列聯表嘅每一格計
    • 係嗰格實際觀察到嘅數值。
    • 係嗰格嘅預期數值,即係假如虛無假說正確,嗰格嘅值應該係乜。

卡次方數值愈大,就愈表示列聯表上嘅實際值,同「如果兩個變量冇啦掕,會觀察到嘅值」爭好遠。因此,研究者由數據計出嘅卡次方數值愈大,佢哋就愈有理由否決虛無假說。

假設有一座城市,有 500,000 人住,城市分做四個街區:ABC 同埋 D。依家政府想做城市規劃研究,研究人員做隨機抽樣,搵咗 650 個人返嚟做樣本,並且記錄樣本中嘅人嘅職業類型(分做白領藍領同埋無領)。虛無假設會話,一個人住邊區同佢嘅職業類型之間係獨立嘅,而佢哋所收集到嘅數據如下:

More information A, B ...

假設個樣本能夠準確代表全城嘅居民。全個樣本中有 349/650 = 53.69% 咁多嘅人係白領,所以住喺 A 區(150 人)又係白領嘅人,預期數量會係:

噉研究人員就可以望住嗰格(A 區白領),計出:

用同一道理,計晒所有格嘅「實際與預期差距」,得出嘅總數(卡次方)為:

喺虛無假說成立嘅情況下,呢個統計量會大約服從卡方分佈,其自由度[註 2]為:

如果計出嚟嘅卡次方(根據呢個卡方分佈同自由度值嚟講)「大得滯」,研究人員就可以拒絕虛無假設。即係話佢會有理由話研究緊嗰兩個變量(居住地職業類型)之間有顯著嘅關係。好似噉嘅卡次方計算,喺社科生物統計學上可以用嚟研究好多用名目量度嘅變量[5]

某啲進階嘅統計模型都會用到卡次方,例如結構方程模型就會使用卡次方,評估個模型預計嘅協方差矩陣同數據實際觀察到嘅相差幾大,藉此評估個模型有幾合乎手上嘅數據[6]

Remove ads

睇埋

註釋

  1. 英文contingency table / crosstab
  2. 呢種自由度計法嘅解釋:假想總數已知,如果思考者知道每行嘅總數同每列嘅總數;一旦知道咗 (R - 1)(C - 1) 個格嘅數值,其餘嘅格嘅數值就會被「固定」。

引咗

外拎

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads