热门问题
时间线
聊天
视角
单变量 (统计)
来自维基百科,自由的百科全书
Remove ads
单变量(Univariate)是统计学中常见的词语,说明只由单一属性或是特征的的观察值组成的资料类型。像员工的薪资就是单变量的资料[1]。单变量资料和其他统计资料一样,先进行量测、搜集、表列以及分析,再来可以由图表、影像或是其他分析工具进行可视化[2]。
资料类型
有些单变量资料包括数字(例如身高170公分或体重65公斤),有些则不是数字(例如黑发或是棕发)。一般来说会用分类单变量资料和数值单变量资料来加以区分。
分类单变量资料包括非数值的观察值,可以用分类代替。其中包括了可以识别每一个元素的标签或是名称。单变量的类别资料,通常是采用名目(nominal)或次序(ordinal)的衡量尺度[3]。
数值单变量资料包括是数值的观察值。可能会用区间或是比例的量测尺度。单变量资料可以再分为两类:离散和连续[2]。离散的数值单变量资料是指所有可能值的集合是有限,或是可数无限(countably infinite)。离散单变量资料一般和计数有关(例如某个人读了几本书)。连续的数值单变量资料是指所有可能值的集合是某一区间内的数字。连续单变量资料一般和量测有关(例如身高)。
资料分析和应用
单变量分析(Univariate analysis)是最简单的资料分析方式[4]。单变量资料需要个别的分析每一个变数。搜集资料的目的是要以此回答和资料相关的问题。单变量资料无法回答有关各变数之间的关系,不过可以用来叙述因观察值而异的特征或属性[5]。一般来说,搜集资料有两种目的,一种是进行描述性研究,另一个则是在回归分析中了解属性如何随变数的个别效应而变化。有一些方法可以叙述单变量中找到的模式,包括图示法、量测集中趋势以及量测变异情形[6]
单变量统计和其他统计类似,也有推论统计学和描述统计学的差异。
有些单变量分析的数值,其实用多元变量统计会更加合适,此时若用单变量统计会造成误导。
集中趋势(Central tendency)是最常见的叙述式量测之一,利用计算平均数、中位数和众数来估计单变量资料的中心位置[7]。每一个计算都有其优点和限制。平均数的优点是其计算会包括所有资料的值,但很容易会受异常值影响。若有异常值时,使用中位数会比较合适。众数的好处是容易计算。
要叙述集中趋势,不限制只能使用单一量测。若资料是分类,没有数字大小的资料,那只能使用众数来量测。不过若资料在本质上是数字(序数或是区间/比),那么平均数、中位数和众数都可以使用。使用多种量测比较可以对集中趋势有较准备的叙述[8]。
对单变数资料离散程度或离散度(偏离平均值的程度)可以更充份的揭示单变数资料分布的形状。这可以提供一些有关资料变异程式度的资讯。离散程度的量测加上集中趋势的量测更可以了解整个资料[9]。最常用的三种离散程度量测有全距、方差和标准偏差[10]。适用哪一种量测视资料种类、资料分布形状以及集中趋势的量测方式而定。若资料是分类的,无法量测资料的离散程度,若资料是数值的,上述三种量测都可以。若资料是对称的,较常用的量测是方差和标准偏差。但若资料有偏度,使用全距会比较合适[3]。
描述式统述描述样本或是母体,可能是探索性资料分析的一部分[11]。
适用的统计方式依测量尺度而不同。若是名目变数,频率表以及其中众数的列表就够了。若是序数变数,可以用中位数来量测集中趋势,用全距(或其他衍生的统计量)量测离散程度。若是分区间的数值变数,可以再加入算术平均数(平均)和标准偏差。若是比例的变数,可以加入几何平均数和调和平均数来量测集中趋势,用变异系数量测离散程度。
推论式方法可以从样本推论母体的特性[11]。若是名目变数,单向卡方检验(适合度)可以确定样本是否符合母体[12]。针对分区间或是比例的数值资料,单向司徒顿t检定可以推论样本是否符合特定数值(多半是0)。其他的检定包括单样本的符号检定和Wilcoxon符号秩检定。
图示方式
最常见的单变量资料图示方式如下:
频率是指某数字出现的次数。例如,在表{1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9}中,数字9的频率是5,表示其出现了5次。

条形图是由矩形组成的图。每一个矩形表示在分类中观测量的次数或是百分比。可以从各矩形的长度或是高度,在视觉上看出各分类的差异。


圆饼图是将圆分成数份,表示各分类的相对频率或是其比例。
分布
单变量分布是单一随机变数的离散类型,离散概率分布可以用概率质量函数(pmf)来叙述,连续概率分布可以用几率密度函数(pdf)来叙述[14]。单变量分布和多变量的联合分布不同。
相关条目
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads