分類變數
From Wikipedia, the free encyclopedia
Remove ads
分類變數(參見英文:categorical variable)係統計學講到嘅一種變數類型,指緊啲觀察值可以按某啲特徵分成數量有限嘅互斥類別,而唔係用連續數值去量度。呢啲類別冇自然嘅數值次序,數值就算有用,都只係攞嚟做代號,數值大細冇任何意義。分類變數嘅常見例子有:
對於呢啲變數,做統計嗰陣可能會俾啲編號佢哋,例如用 0 表示男 1 表示女噉。但噉嘅數值唔會攞嚟比較大細或者做加減乘除。
分析
内文:列聯表同卡方檢定
分類變數可以用卡方檢定(英文:chi-square)等嘅方法去分析。
由於分類變數本身唔係量度得嚟嘅數值,研究者可以會用列聯表,記錄唔同類別組合出現嘅頻率,然後用卡方檢定,去檢查兩個分類變數之間有冇統計上顯著嘅關連。例如,可以用卡方檢定去分析性別同血型之間有冇關係,做法係首先數吓每種性別與血型配搭出現咗幾多次,然後計算理論頻率[註 1]同觀察到嘅頻率之間差幾遠。如果卡方統計值大到超過臨界值,就可以拒絕「冇關連」嘅虛無假說。[1][2]
研究者將現實世界嘅分類資訊,轉做數據入面嘅代碼(英文:coding;粵拼:粵化口語音:kuk1 ding4),要同研究問題同理論模型一致。啲類別唔可以亂咁排次序,假如(例如)研究血型,就唔可以用 1、2、3 直接 code,否則統計模型會當正佢係有大細次序嘅數值。[3]
睇埋
註釋
- 講緊如果兩者冇關聯,預計啲頻率會係幾多。
引咗
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads