热门问题
时间线
聊天
视角

司徒頓t分布

機率分布 来自维基百科,自由的百科全书

司徒頓t分布
Remove ads

学生t分布(Student's t-distribution),簡稱t 分布,在機率論统计学中用于根据小样本來估計母體呈常態分布標準差未知的期望值。若母體標準差已知,或是样本数足够大时(依據中央極限定理漸進常態分布),则应使用常態分布來進行估計。其為对两个样本期望值差异进行显著性测试的司徒頓t檢定之基础。

事实速览 参数, 值域 ...
Remove ads

司徒頓t 檢定改進了Z檢定Z-test),因為在小樣本中,Z檢定以母體標準差已知為前提,Z檢定用在小樣本會產生很大的誤差,因此必須改用学生t 檢定以求準確。但若在樣本數足夠大(普遍認為超過30個即足夠)時,可依據中央極限定理近似常態分布,以Z檢定來求得近似值,

在母體標準差數未知的情況下,不論樣本數量大或小皆可應用t檢定。在待比較的數據有三組以上時,因為誤差無法被壓低,此時可以用變異數分析(ANOVA)代替t檢定。

t 分布的推导最早由德國大地测量学家弗里德里希·羅伯特·赫爾默特英语Friedrich Robert Helmert于1876年提出,并由德國数学家雅各布·魯洛斯英语Jacob Lüroth证明。[1][2]

英國人威廉·戈塞于1908年再次发现并发表了t分布,当时他还在愛爾蘭都柏林吉尼斯啤酒酿酒厂工作。酒廠雖然禁止員工發表一切與釀酒研究有關的成果,但允許他在不提到釀酒的前提下,以筆名發表t 分佈的發現,所以论文使用了「学生」(Student)这一笔名。之后t检定以及相关理论经由羅納德·費雪发扬光大,為了感謝戈塞的功勞,費雪将此分布命名为学生t 分布(Student's t)。[3]

Remove ads

描述

假设是呈正态分布的独立的随机变量(随机变量的期望值,母體變異數但其值未知)。 令:

样本期望值

樣本變異數

為呈期望值為0變異數為1的常態分布随机变量,但因母體變異數為未知,因此依史拉斯基定理替換之:

T機率密度函數是:

等于n − 1。 T的分布称为t 分布母數 一般被称为自由度

伽玛函数。 如果是偶数,

如果是奇数,

T機率密度函數的形状类似于期望值为0方差为1的正态分布,但更低更宽。随着自由度的增加,则越来越接近期望值为0方差为1的正态分布。

t 分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线).
前幅图用绿色曲线表示.
Thumb
1 degree of freedom
Thumb
2 degrees of freedom
Thumb
3 degrees of freedom
Thumb
5 degrees of freedom
Thumb
10 degrees of freedom
Thumb
30 degrees of freedom

T分布的概率累计函数,用不完全贝塔函数I表示:

其中


T分布的矩为:

Remove ads

学生t 分布置信区间的推导

假设数量A在当Tt-分布(T自由度n − 1)满足

这与

是相同的

A是这个概率分布的第95个百分点

那么

等价于

因此μ的90%置信区间为:

Remove ads

计算

现在最方便的计算T分布的办法是使用电子表格软件(如Excel)或查相关在线计算网站。例如,Excel的TDIST(x,v,sides)用来计算自由度为v的T分布,如果第三个参数为1,则给出Pr(T>x);如果第三个参数为2,则计算Pr(T>x Or T<-x).

下表列出了自由度為t 分布的單側和雙側區間值。例如,當樣本數量n=5時,則自由度=4,我們就可以查找表中以4開頭的行。該行第5列值為2.132,對應的單側值為95%(雙側值為90%)。這也就是說,T小於2.132的概率為95%(即單側),記為Pr(−∞ < T < 2.132) = 0.95;同時,T值介於-2.132和2.132之間的概率為90%(即雙側),記為Pr(−2.132 < T < 2.132) = 0.9。

這是根據分布的對稱性計算得到的,

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

因此,

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

注意關於表格的最後一行的值:自由度為無限大的t-分布和常態分布等價。

更多信息 ...
Remove ads

範例

给定一个样本:样本期望值和方差分别为10和2,样本大小为11(自由度为10)。根據公式:

可知,使用該方法統計出來的最大值,平均有90%的概率(即90%置信度/信心水準/confidence level)低於:

同理,使用該方法統計出來的最小值,平均有90%的概率(即90%置信度/信心水準/confidence level)高於:

因此,使用該方法統計出來的最大值和最小值,平均有80%的概率介於:

兩值之間。(需注意此非代表數據的真正期望值介於這兩個值之間的機率為80%,詳情請參見置信区间。)

Remove ads

參見

參考文獻

外部連結

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads