決定系數

From Wikipedia, the free encyclopedia

決定系數
Remove ads

決定系數,又叫 R-平方,係統計學上嘅概念,做統計嘅人成日會用佢嚟衡量可解釋變異。決定系數大致上可以理解為係喺度衡量手上個模型嗰啲自變數,講緊呢啲自變數有幾能夠「解釋」或者「預測」研究緊嘅應變數

Thumb
描繪奧肯法則數據

如果講緊嗰個模型係迴歸模型,決定系數(R2)嘅定義如下:[1]

當中 SSr 反映建立咗模型之後,研究者對應變數淨低幾多不確定性,而 SSz 則反映應變數中存有嘅不確定性總量。

Remove ads

基本定義

睇埋:方差殘差

假設有一組數據,包括 y1, ... , ynn 咁多個觀察值。研究者建立咗個統計模型,用個模型預測應變數嘅值,而對每個觀察到嘅值,模型都有相應嘅預測值,分別係 f1, ... , fn 噉。定義殘差ei = yifi,而觀察值嘅平均值係:[2][3]

跟住就可以計到總平方和英文TSS),呢個數值反映應變數帶有嘅「不確定性總量」:

然後就計埋殘差平方和英文RSS),呢條式嘅計算用咗殘差嘅概念,而個數值反映有咗個模型,應變數帶有幾多不確定性,殘差值愈高,不確定性就愈高:

最後,決定系數(R-平方)嘅定義就係:

決定系數可以噉理解:決定系數嘅數值愈大(愈接近 1),就愈表示個模型能夠「解釋到」應變數嘅變異;而其數值愈低,就愈反映個模型根本解釋唔到應變數嘅變異[註 1]。要圖像化噉表達嘅話,可以試想下圖,下圖數據中有四個個案,打戙軸表示應變數(y)嘅值,當中

  • 左圖係一個冇咩資訊嘅模型-無論 x 係咩值,模型都預測佢個相應 y 值等如 y 嘅平均值,畫做線成打橫嘅線;啲紅色方形嘅高度數值加埋晒一齊,會反映總平方和
  • 右圖用咗一個線性嘅迴歸模型做預測,當中個模型斜率正數,啲藍色方形嘅高度數值加埋晒一齊,會反映殘差平方和

假如殘差平方和總平方和相比好細(前者除以後者,出嘅數值接近 0),噉 R-平方數值就會迫近 1。


Thumb


Remove ads

概念詮釋

R2 係用嚟量度模型擬合得有幾好嘅指標[4]。喺迴歸分析入便,決定系數 R2 可以用嚟衡量迴歸預測結果有幾貼近實際嘅數據點。如果 R2 = 1,就表示迴歸預測可以完全吻合數據[註 2]R2 數值低(例如接近 0 甚至係負數)就反映個模型唔能夠符合數據。因此建立迴歸模型嘅人通常希望 R2 數值接近 1。

睇埋

註釋

  1. 喺呢種計法下,R-平方理論上的確可以係負數,不過噉就反映個模型做起預測上嚟仲渣過(預測值永遠等同平均嘅)低資訊模型。
  2. 不過噉都未必係一件好事。可以睇吓過適嘅概念。

引述

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads