分類變數

From Wikipedia, the free encyclopedia

Remove ads

分類變數（參見英文：categorical variable）係統計學講到嘅一種變數類型，指緊啲觀察值可以按某啲特徵分成數量有限嘅互斥類別，而唔係用連續數值去量度。呢啲類別冇自然嘅數值次序，數值就算有用，都只係攞嚟做代號，數值大細冇任何意義。分類變數嘅常見例子有：

性別（例如男、女）
血型（例如 A 型、B 型、O 型、AB 型）
語言學入面嘅詞性（例如名詞、動詞、形容詞呀噉）

對於呢啲變數，做統計嗰陣可能會俾啲編號佢哋，例如用 0 表示男 1 表示女噉。但噉嘅數值唔會攞嚟比較大細或者做加減乘除。

分析

内文：列聯表同卡方檢定

分類變數可以用卡方檢定（英文：chi-square）等嘅方法去分析。

由於分類變數本身唔係量度得嚟嘅數值，研究者可以會用列聯表，記錄唔同類別組合出現嘅頻率，然後用卡方檢定，去檢查兩個分類變數之間有冇統計上顯著嘅關連。例如，可以用卡方檢定去分析性別同血型之間有冇關係，做法係首先數吓每種性別與血型配搭出現咗幾多次，然後計算理論頻率^{[註 1]}同觀察到嘅頻率之間差幾遠。如果卡方統計值大到超過臨界值，就可以拒絕「冇關連」嘅虛無假說。^[1]^[2]

研究者將現實世界嘅分類資訊，轉做數據入面嘅代碼（英文：coding；粵拼：粵化口語音：kuk1 ding4），要同研究問題同理論模型一致。啲類別唔可以亂咁排次序，假如（例如）研究血型，就唔可以用 1、2、3 直接 code，否則統計模型會當正佢係有大細次序嘅數值。^[3]

睇埋

註釋

[1]
講緊如果兩者冇關聯，預計啲頻率會係幾多。

引咗

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads