热门问题
时间线
聊天
视角
單變量 (統計)
来自维基百科,自由的百科全书
Remove ads
單變量(Univariate)是統計學中常見的詞語,說明只由單一屬性或是特徵的的觀察值組成的資料類型。像員工的薪資就是單變量的資料[1]。單變量資料和其他統計資料一樣,先進行量測、蒐集、表列以及分析,再來可以由圖表、影像或是其他分析工具進行可視化[2]。
資料類型
有些單變量資料包括數字(例如身高170公分或體重65公斤),有些則不是數字(例如黑髮或是棕髮)。一般來說會用分類單變量資料和數值單變量資料來加以區分。
分類單變量資料包括非數值的观察值,可以用分類代替。其中包括了可以識別每一個元素的標籤或是名稱。單變量的類別資料,通常是採用名目(nominal)或次序(ordinal)的衡量尺度[3]。
數值單變量資料包括是數值的观察值。可能會用區間或是比例的量測尺度。單變量資料可以再分為兩類:離散和連續[2]。離散的數值單變量資料是指所有可能值的集合是有限,或是可數無限(countably infinite)。離散單變量資料一般和計數有關(例如某個人讀了幾本書)。連續的數值單變量資料是指所有可能值的集合是某一區間內的數字。連續單變量資料一般和量測有關(例如身高)。
資料分析和應用
單變量分析(Univariate analysis)是最簡單的資料分析方式[4]。單變量資料需要個別的分析每一個變數。蒐集資料的目的是要以此回答和資料相關的問題。單變量資料無法回答有關各變數之間的關係,不過可以用來敘述因觀察值而異的特徵或屬性[5]。一般來說,蒐集資料有兩種目的,一種是進行描述性研究,另一個則是在迴歸分析中了解屬性如何隨變數的個別效應而變化。有一些方法可以敘述單變量中找到的模式,包括圖示法、量測集中趨勢以及量測變異情形[6]
單變量統計和其他統計類似,也有推論統計學和描述统计学的差異。
有些單變量分析的數值,其實用多元变量统计會更加合適,此時若用單變量統計會造成誤導。
集中趨勢(Central tendency)是最常見的敘述式量測之一,利用計算平均数、中位數和眾數來估計單變量資料的中心位置[7]。每一個計算都有其優點和限制。平均數的優點是其計算會包括所有資料的值,但很容易會受异常值影響。若有異常值時,使用中位數會比較合適。眾數的好處是容易計算。
要敘述集中趨勢,不限制只能使用單一量測。若資料是分類,沒有數字大小的資料,那只能使用眾數來量測。不過若資料在本質上是數字(序数或是區間/比),那麼平均數、中位數和眾數都可以使用。使用多種量測比較可以對集中趨勢有較準備的敘述[8]。
對單變數資料离散程度或離散度(偏離平均值的程度)可以更充份的揭示單變數資料分布的形狀。這可以提供一些有關資料變異程式度的資訊。離散程度的量測加上集中趨勢的量測更可以瞭解整個資料[9]。最常用的三種離散程度量測有全距、方差和標準偏差[10]。適用哪一種量測視資料種類、資料分布形狀以及集中趨勢的量測方式而定。若資料是分類的,無法量測資料的離散程度,若資料是數值的,上述三種量測都可以。若資料是對稱的,較常用的量測是方差和標準偏差。但若資料有偏度,使用全距會比較合適[3]。
描述式統述描述樣本或是母體,可能是探索性資料分析的一部份[11]。
適用的統計方式依測量尺度而不同。若是名目變數,频率表以及其中眾数的列表就夠了。若是序數變數,可以用中位數來量測集中趋势,用全距(或其他衍生的統計量)量測離散程度。若是分區間的數值變數,可以再加入算术平均数(平均)和標準偏差。若是比例的變數,可以加入几何平均数和调和平均数來量測集中趋势,用变异系数量測離散程度。
推論式方法可以從樣本推論母體的特性[11]。若是名目變數,單向卡方检验(適合度)可以確定樣本是否符合母體[12]。針對分區間或是比例的數值資料,單向司徒頓t檢定可以推論樣本是否符合特定數值(多半是0)。其他的檢定包括單樣本的符號檢定和Wilcoxon符號秩檢定。
圖示方式
最常見的單變量資料圖示方式如下:
頻率是指某數字出現的次數。例如,在表{1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9}中,數字9的頻率是5,表示其出現了5次。

條形圖是由矩形組成的图。每一個矩形表示在分類中觀測量的次數或是百分比。可以從各矩形的長度或是高度,在視覺上看出各分類的差異。


圓餅圖是將圓分成數份,表示各分類的相對頻率或是其比例。
分布
單變量分布是單一隨機變數的離散類型,離散概率分布可以用概率质量函数(pmf)來敘述,連續概率分布可以用機率密度函數(pdf)來敘述[14]。單變量分布和多變量的联合分布不同。
相關條目
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads