热门问题
时间线
聊天
视角
司徒頓t分布
機率分布 来自维基百科,自由的百科全书
Remove ads
司徒頓t分布(Student's t-distribution),簡稱t 分布,在機率論及統計學中用於根據小樣本來估計母體呈常態分布且標準差未知的期望值。若母體標準差已知,或是樣本數足夠大時(依據中央極限定理漸進常態分布),則應使用常態分布來進行估計。其為對兩個樣本期望值差異進行顯著性測試的司徒頓t檢定之基礎。
Remove ads
司徒頓t 檢定改進了Z檢定(Z-test),因為在小樣本中,Z檢定以母體標準差已知為前提,Z檢定用在小樣本會產生很大的誤差,因此必須改用司徒頓t 檢定以求準確。但若在樣本數足夠大(普遍認為超過30個即足夠)時,可依據中央極限定理近似常態分布,以Z檢定來求得近似值,
在母體標準差數未知的情況下,不論樣本數量大或小皆可應用t檢定。在待比較的數據有三組以上時,因為誤差無法被壓低,此時可以用變異數分析(ANOVA)代替t檢定。
t 分布的推導最早由德國大地測量學家弗里德里希·羅伯特·赫爾默特於1876年提出,並由德國數學家雅各布·魯洛斯證明。[1][2]
英國人威廉·高斯特於1908年再次發現並發表了t分布,當時他還在愛爾蘭都柏林的吉尼斯啤酒釀酒廠工作。酒廠雖然禁止員工發表一切與釀酒研究有關的成果,但允許他在不提到釀酒的前提下,以筆名發表t 分布的發現,所以論文使用了「司徒頓」(Student)這一筆名。之後t檢定以及相關理論經由羅納德·費雪發揚光大,為了感謝高斯特的功勞,費雪將此分布命名為司徒頓t 分布(Student's t)。[3]
Remove ads
描述
假設是呈常態分布的獨立的隨機變數(隨機變數的期望值為,母體變異數為但其值未知)。 令:
為樣本期望值,
為樣本變異數,
為呈期望值為0變異數為1的常態分布的隨機變數,但因母體變異數為未知,因此依史拉斯基定理以替換之:
T 的機率密度函數是:
等於n − 1。 T的分布稱為t 分布。母數 一般被稱為自由度。
是伽瑪函數。 如果是偶數,
如果是奇數,
T 的機率密度函數的形狀類似於期望值為0變異數為1的常態分布,但更低更寬。隨著自由度的增加,則越來越接近期望值為0變異數為1的常態分布。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
T分布的機率累計函數,用不完全貝塔函數I表示:
其中
T分布的動差為:
Remove ads
司徒頓t 分布信賴區間的推導
假設數量A在當T呈t-分布(T的自由度為n − 1)滿足
這與
- 是相同的
A是這個機率分布的第95個百分點
那麼
等價於
因此μ的90%信賴區間為:
Remove ads
計算
現在最方便的計算T分布的辦法是使用電子表格軟體(如Excel)或查相關線上計算網站。例如,Excel的TDIST(x,v,sides)用來計算自由度為v的T分布,如果第三個母數為1,則給出Pr(T>x);如果第三個母數為2,則計算Pr(T>x Or T<-x).
下表列出了自由度為的t 分布的單側和雙側區間值。例如,當樣本數量n=5時,則自由度=4,我們就可以查找表中以4開頭的行。該行第5列值為2.132,對應的單側值為95%(雙側值為90%)。這也就是說,T小於2.132的機率為95%(即單側),記為Pr(−∞ < T < 2.132) = 0.95;同時,T值介於-2.132和2.132之間的機率為90%(即雙側),記為Pr(−2.132 < T < 2.132) = 0.9。
這是根據分布的對稱性計算得到的,
- Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,
因此,
- Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.
注意關於表格的最後一行的值:自由度為無限大的t-分布和常態分布等價。
Remove ads
範例
給定一個樣本:樣本期望值和變異數分別為10和2,樣本大小為11(自由度為10)。根據公式:
可知,使用該方法統計出來的最大值,平均有90%的機率(即90%置信度/信心水準/confidence level)低於:
同理,使用該方法統計出來的最小值,平均有90%的機率(即90%置信度/信心水準/confidence level)高於:
因此,使用該方法統計出來的最大值和最小值,平均有80%的機率介於:
兩值之間。(需注意此非代表數據的真正期望值介於這兩個值之間的機率為80%,詳情請參見信賴區間。)
Remove ads
參見
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads