卡方檢定
統計測試 From Wikipedia, the free encyclopedia
Remove ads
卡方檢定(粵拼:kaa1 fong1 gim2 ding6;參見英文:Chi-squared,χ2)係統計學上一種假說檢定方法,成日用嚟分析離散變量之間有冇關聯,尤其係一啲冇得分數值高低嘅變量。研究者會透過列聯表,展示唔同類別組合嘅頻數,再計出實際觀察值同預期值之間差幾遠。運用呢個值加上是次分析嘅自由度,研究者可以檢定兩個變量間係咪彼此獨立。

卡方檢定常見於社會科學、心理學同生物統計學等領域嘅研究,檢定離散變量(譬如係性別、職業同埋族裔等等)之間有冇關聯。而且某啲進階嘅統計模型方法仲會用卡方統計量評估模型嘅擬合度,例如結構方程模型就係噉。
一般嚟講,卡方檢定係用嚟應付離散而且冇分咩數值高低嘅變量。假如研究緊嘅變量係連續嘅,例如身高或者體溫呀噉,統計相關同迴歸模型等嘅檢定方法就會比較啱用。
基礎概念
睇埋:列聯表同量度層次
卡方檢定係用嚟分析列聯表[註 1]嘅。喺統計學上,列聯表係表格一種,用嚟展現變量間嘅多變量頻率分佈。最基本嗰款列聯表會有兩個變量,每個變量有若干個(數量有限嘅)可能值,而列聯表每一格就表示有幾多個個案具有嗰格所示嘅特性[1][2]。舉例說明:
Remove ads
假說檢定
睇埋:假說檢定
設而家有個樣本,樣本中有 n 咁多個個體,研究者將啲個體分做 k 個互斥嘅類別,當中 xi 係指第 i 個類別(i = 1,2... k)中嘅個體數量。例如將樣本按性別分做男同女(k = 2),或者按居住地分做市中心、近郊、遠郊(k = 3)呀噉。噉而家研究者想做假說檢定,性別同居住地呢兩個變量之間有冇啦掕,虛無假說會主張啲變量之間完全冇啦掕,所以性別唔會影響居住地嘅分佈,而居住地亦唔會影響性別嘅分佈。於是研究者就要計以下呢條數[4]:
- ,當中
- 係所謂嘅卡次方(英文:Chi-squared;參照希臘字母 Χ,呢隻字母讀音近似粵拼:kaai1),簡稱卡方,係檢定用嘅統計量。
- 研究者要同列聯表嘅每一格計
- 係嗰格實際觀察到嘅數值。
- 係嗰格嘅預期數值,即係假如虛無假說正確,嗰格嘅值應該係乜。
卡次方數值愈大,就愈表示列聯表上嘅實際值,同「如果兩個變量冇啦掕,會觀察到嘅值」爭好遠。因此,研究者由數據計出嘅卡次方數值愈大,佢哋就愈有理由否決虛無假說。
假設有一座城市,有 500,000 人住,城市分做四個街區:A、B、C 同埋 D。依家政府想做城市規劃研究,研究人員做隨機抽樣,搵咗 650 個人返嚟做樣本,並且記錄樣本中嘅人嘅職業類型(分做白領、藍領同埋無領)。虛無假設會話,一個人住邊區同佢嘅職業類型之間係獨立嘅,而佢哋所收集到嘅數據如下:
假設個樣本能夠準確代表全城嘅居民。全個樣本中有 349/650 = 53.69% 咁多嘅人係白領,所以住喺 A 區(150 人)又係白領嘅人,預期數量會係:
噉研究人員就可以望住嗰格(A 區白領),計出:
用同一道理,計晒所有格嘅「實際與預期差距」,得出嘅總數(卡次方)為:
喺虛無假說成立嘅情況下,呢個統計量會大約服從卡方分佈,其自由度[註 2]為:
如果計出嚟嘅卡次方(根據呢個卡方分佈同自由度值嚟講)「大得滯」,研究人員就可以拒絕虛無假設。即係話佢會有理由話研究緊嗰兩個變量(居住地同職業類型)之間有顯著嘅關係。好似噉嘅卡次方計算,喺社科同生物統計學上可以用嚟研究好多用名目量度嘅變量[5]。
某啲進階嘅統計模型都會用到卡次方,例如結構方程模型就會使用卡次方,評估個模型預計嘅協方差矩陣同數據實際觀察到嘅相差幾大,藉此評估個模型有幾合乎手上嘅數據[6]。
Remove ads
睇埋
註釋
引咗
外拎
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads