热门问题
时间线
聊天
视角
中位数
数据集或概率分布的中间分位数 来自维基百科,自由的百科全书
Remove ads
统计学上,中位数(英语:Median),又称中央值[1]、中值,是一个样本、种群或概率分布中之一个数值,其可将数值集合划分为数量相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。
此条目需要补充更多来源。 (2014年7月21日) |
一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。
设连续随机变量X的分布函数为F(X),那么满足条件P(X≤m)=F(m)=1/2的数称为X或分布F的中位数。
对于一组有限个数的数据来说,其中位数是这样的一种数:这群数据的一半的数据比它大,而另外一半数据比它小。
计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。
Remove ads
公式
实数按大小顺序(顺序,降序皆可)排列为、
实数数列的中位数 为
其中 odd number 表示奇数,even number 表示偶数。
Remove ads
中位数特性
中位数在描述统计学上和平均数、众数并列为数据的集中趋势。三者的位置排序亦对应着偏度的正负偏态意义。一般而言,平均数是最常被使用做为数据的集中趋势,但如果有极端值存在,平均数的代表性降低,也就所谓的“男人女人平均一颗睾丸”的问题,因此在有极端值的状况下,中位数是比较好的集中趋势代表。因此,在各国的每人所得分布上,通常以中位数代表集中趋势,而非平均数[2]。
中位数通常出现在描述统计学和非参数统计,有参数的统计分析很少提及。中位数为集中趋势时,对应的离散趋势系数为平均绝对离差(Mean absolute deviation, MAD)或是四位位距(Q3 - Q1)。不过如果论及总体中位数的统计量时,仍需根据统计分析对抽样分配的要求,寻找总体中位数统计量的期望与方差,再依照点估计的充分、无偏、效率、一致性进行讨论。而总体中位数的统计量通常是样本中位数。因此,样本中位数的期望与方差就值得被讨论,进行基础研究。
Remove ads
正态分配下的平均数、中位数、众数都是同一个位置。目前最为世人熟知的是平均数的抽样分配会是正态分配,期望为总体平均数且方差为总体方差()。统计学对正态分配的总体平均数统计量说明甚多,并发展完善。那么中位数可基于概率分配模拟器和数值分析发展,在n个独立随机变量来自正态分配可生成n个随机样本,则E(样本中位数)=且Var(样本中位数)=,其中,k(n)受到样本个数(n)影响。当样本个数介于2至200时,两者的关系不明显,但可计算出样本个数和k(n)的关联表[3]。
如果样本个数超过200,但不超过1000时,两者有明显的关系,并且受到样本个数是否为奇数或偶数影响。此时可使用回归分析寻找两者的关系。
1. 样本个数为偶数,回归式为k(n) = 0.0000148965 + 1.5599936862 / n。
2. 样本个数为奇数,回归式为k(n) = 0.0000084608 + 1.5674001064 / n。
由此可得到样本中位数的方差和总体正态分配的方差形成稳定的对应关系[4]。
Remove ads
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads