热门问题
时间线
聊天
视角

学生t-分布

機率分布 来自维基百科,自由的百科全书

司徒頓t分布
Remove ads

学生t分布(Student's t-distribution),简称t 分布,在概率论统计学中用于根据小样本来估计总体呈正态分布标准差未知的期望。若总体标准差已知,或是样本数足够大时(依据中心极限定理渐进正态分布),则应使用正态分布来进行估计。其为对两个样本期望差异进行显著性测试的学生t检验之基础。

事实速览 参数, 值域 ...
Remove ads

学生t 检验改进了Z检验Z-test),因为在小样本中,Z检验以总体标准差已知为前提,Z检验用在小样本会产生很大的误差,因此必须改用学生t 检验以求准确。但若在样本数足够大(普遍认为超过30个即足够)时,可依据中心极限定理近似正态分布,以Z检验来求得近似值,

在总体标准差数未知的情况下,不论样本数量大或小皆可应用t检验。在待比较的数据有三组以上时,因为误差无法被压低,此时可以用方差分析(ANOVA)代替t检验。

t 分布的推导最早由德国大地测量学家弗里德里希·罗伯特·赫尔默特英语Friedrich Robert Helmert于1876年提出,并由德国数学家雅各布·鲁洛斯英语Jacob Lüroth证明。[1][2]

英国人威廉·戈塞于1908年再次发现并发表了t分布,当时他还在爱尔兰都柏林吉尼斯啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t 分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检定以及相关理论经由罗纳德·费希尔发扬光大,为了感谢戈塞的功劳,费希尔将此分布命名为学生t 分布(Student's t)。[3]

Remove ads

描述

假设是呈正态分布的独立的随机变量(随机变量的期望,总体方差但其值未知)。 令:

样本期望

样本方差

为呈期望为0方差为1的正态分布随机变量,但因总体方差为未知,因此依斯卢茨基定理替换之:

T概率密度函数是:

等于n − 1。 T的分布称为t 分布参数 一般被称为自由度

伽玛函数。 如果是偶数,

如果是奇数,

T概率密度函数的形状类似于期望为0方差为1的正态分布,但更低更宽。随着自由度的增加,则越来越接近期望为0方差为1的正态分布。

t 分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线).
前幅图用绿色曲线表示.
Thumb
1 degree of freedom
Thumb
2 degrees of freedom
Thumb
3 degrees of freedom
Thumb
5 degrees of freedom
Thumb
10 degrees of freedom
Thumb
30 degrees of freedom

T分布的概率累计函数,用不完全贝塔函数I表示:

其中


T分布的矩为:

Remove ads

学生t 分布置信区间的推导

假设数量A在当Tt-分布(T自由度n − 1)满足

这与

是相同的

A是这个概率分布的第95个百分点

那么

等价于

因此μ的90%置信区间为:

Remove ads

计算

现在最方便的计算T分布的办法是使用电子表格软件(如Excel)或查相关在线计算网站。例如,Excel的TDIST(x,v,sides)用来计算自由度为v的T分布,如果第三个参数为1,则给出Pr(T>x);如果第三个参数为2,则计算Pr(T>x Or T<-x).

下表列出了自由度为t 分布的单侧和双侧区间值。例如,当样本数量n=5时,则自由度=4,我们就可以查找表中以4开头的行。该行第5列值为2.132,对应的单侧值为95%(双侧值为90%)。这也就是说,T小于2.132的概率为95%(即单侧),记为Pr(−∞ < T < 2.132) = 0.95;同时,T值介于-2.132和2.132之间的概率为90%(即双侧),记为Pr(−2.132 < T < 2.132) = 0.9。

这是根据分布的对称性计算得到的,

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

因此,

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

注意关于表格的最后一行的值:自由度为无限大的t-分布和正态分布等价。

更多信息 ...
Remove ads

范例

给定一个样本:样本期望和方差分别为10和2,样本大小为11(自由度为10)。根据公式:

可知,使用该方法统计出来的最大值,平均有90%的概率(即90%置信度/置信水平/confidence level)低于:

同理,使用该方法统计出来的最小值,平均有90%的概率(即90%置信度/置信水平/confidence level)高于:

因此,使用该方法统计出来的最大值和最小值,平均有80%的概率介于:

两值之间。(需注意此非代表数据的真正期望介于这两个值之间的概率为80%,详情请参见置信区间。)

Remove ads

参见

参考文献

外部链接

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads