廣義線性模型

From Wikipedia, the free encyclopedia

廣義線性模型

Remove ads

廣義線性模型（參見英文：GLM）係統計分析一種，始於二十世紀。做研究嘅人靠住廣義線性模型，可以得知某個應變數同若干個自變數間有乜嘢關係。譬如依家做宏觀經濟學研究，研究者量度一個國家或地區嘅各種條件，包括係個國家地區嘅人口、利率以及失業率等，想知道呢啲自變數會點樣影響本地生產總值呢個應變數。

Thumb — 迴歸分析可以用嚟展現兩個變數（圖中打橫軸同打戙軸）之間成咩關係。廣義線性模型都可以做到呢點，但就唔使假設啲變數呈常態分佈。

一般認為，廣義線性模型有個好處，就係比較有彈性，唔使假設啲變數跟常態分佈。喺諸如經濟學、醫學、工程學等好多領域，研究緊嘅變數好多時都唔跟從常態分佈，而普通嘅迴歸分析假設咗啲變數跟常態分佈，就好多時都用唔著。喺呢啲情況下，研究者有必要用廣義線性模型，先可以解答手上嘅問題。

廣義線性模型係廣義化嘅模型。普通嘅迴歸分析可以當係廣義線性模型嘅特殊個案，係假設啲變數呈常態分佈嘅廣義線性模型。除此之外，廣義線性模型仲可以包含好多種統計模型，譬如係邏輯迴歸同埋泊淞迴歸呀噉。

Remove ads

背景概念

睇埋：迴歸分析同常態分佈

迴歸分析^[1]係統計學入便一種基礎嘅統計模型，用嚟剖析一個應變數 DV 同若干個自變數 IV 之間嘅關係。簡單嚟講，迴歸模型可以由數據當中搵出規律，建立一個類似噉嘅模型^[2]：

Y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\beta _{3}x_{3}+e

；當中

$\beta _{0}$ 代表咗截距；
$x_{1}$ 、 $x_{2}$ 、同 $x_{3}$ 分別代表咗三個 IV；
$\beta _{1}$ 代表咗 $x_{1}$ 呢個 IV 對個 DV 有幾大影響力，其他嗰兩個 $\beta _{2}$ 同 $\beta _{3}$ 都係同一道理。
$e$ 為殘差項。

由過往數據得出模型，研究者就可以更深入理解研究緊嘅現象（知道啲 IV 係咪真係能夠預測 DV ^{[註 1]}）而且將來佢攞住個模型，仲可以透過量度 IV 值嚟預測 DV 值。舉個應用例子：想像依家要做營銷，一間企業睇吓過往嘅數據，建立迴歸模型描述廣告費用同營業額之間嘅關係，得出個模型之後，就可以得知

「廣告費用每增加 1,000 文，營業額平均會升 5,000 文」

噉嘅資訊，當中廣告費用係自變數（用嚟做預測）而營業額係應變數（被預測嗰個）。班研究者有咗個模型，第時就做預測同埋幫手制定營銷策略。

傳統上，迴歸分析會假設咗啲變數嘅量度誤差服從常態分佈^[3]，即係話呢啲變數理應係噉：大部分數值都集中喺平均值附近，極端數值較少出現。假如研究緊嘅變數唔服從常態分佈，又照用迴歸分析，就會搞到得出嘅模型唔準確^[4]。

Remove ads

模型基礎

廣義線性模型嘅重點特徵，在於佢比較廣義化。

喺實際應用上，好多變數的確係大致跟常態分佈嘅，所以迴歸分析嘅假設冇問題，但又有多變數嘅數據明顯唔符合常態分佈，譬如數sou2數據（想像分析某產品每日賣出幾多件）嘅誤差可能會呈泊松分佈而非常態分佈^[5]，而且好多描述人類行為嘅變數都會有好多極端值^[6]，有高嘅偏度同峰度，呢啲噉嘅變數就難以用迴歸分析嚟研究。不過，呢啲變數喺各門社會科學度都好常見。

Thumb — 呢幅圖打橫條軸係「個變數嘅可能數值」而打戙條軸係「每個值出現嘅機率」。呢幅入便嗰個變數跟從常態分佈。

廣義線性模型有助應付呢個問題，因為呢種分析方法放寬咗對誤差嘅假設。喺廣義線性模型入便，個應變數 Y 每個出到嘅數值都假設咗係由某種指數型分佈^[7]產生嘅。指數型分佈包括好多種概率分佈，諸如常態分佈、二項分佈、泊淞分佈以及伽瑪分佈等等。噉：

\operatorname {E} (\mathbf {Y} \mid \mathbf {X} )=g^{-1}(\mathbf {X} {\boldsymbol {\beta }})

呢度嘅 E(Y | X) 係 Y 喺 X 條件下嘅期望值，簡單講即係已知 X 嘅值，預期 Y 會係幾多；Xβ 係線性預測子^[8]，即係未知參數 β 嘅線性組合，最後 g 就係連結函數^[9]。未知參數 β 可以用最大似然估計或者貝葉斯式嘅技術嚟估計^[10]。呢個概念可以當係線性迴歸同埋邏輯迴歸嘅廣義化－譬如喺線性迴歸當中，g 係恆等函數。

Remove ads

模型類型

睇埋：線性迴歸模型同概率分佈一覽

GLM 可以包括唔同類型嘅模型。各種模型之間嘅分別，主要在於佢哋用邊種概率分佈嚟模擬要預測嘅變數，以及係呢個分佈條式入便嘅各個項，要點樣設成預測子嘅線性組合。最基本嗰種線性迴歸模型假設應變數跟從常態分佈，用一眾自變數嘅線性組合，預測呢個常態分佈嘅平均值^[11]；而視乎數據嘅種類，統計師仲可以選用好多唔同類型嘅模型。

較進階嘅分析，仲可以結合多種模型，例如首先用邏輯迴歸預測個應變數係咪正數，然後再用線性迴歸預測佢數值係幾多。

邏輯迴歸

Thumb — 標準嘅邏輯剔函數 $\sigma (t)$ ：
對所有嘅 $t$ ， $\sigma (t)\in (0,1)$ 。

内文：邏輯迴歸

邏輯迴歸係一種常見嘅迴歸分析方法，基於伯努利分佈，可以用嚟處理二元分類問題。呢種分佈嘅概率質量函數為：

P(Y=y)=p^{y}(1-p)^{1-y},\quad y\in \{0,1\}

當中 $p$ 係事件發生嘅概率而 y 就係實際結果（1 代表發生，0 代表冇發生）。呢種分佈適合攞嚟模擬成功定係失敗嘅二元結果^{[註 2]}，例子包括病人會唔會好返、學生考試會唔會合格、客戶會唔會買件產品、電郵係唔係垃圾郵件... 等等^[12]。然後想像邏輯剔函數嘅概念，邏輯剔函數可以用嚟將任意實數輸入變換到 0 至 1 之間，屬於 Sigmoid 函數嘅一種。邏輯剔函數個標準形式係：

\sigma (t)={\frac {e^{t}}{e^{t}+1}}={\frac {1}{1+e^{-t}}}

^{[註 3]}

行邏輯迴歸 fit 嘅模型，就係好似以下噉：

t=\beta _{0}+\beta _{1}x

當中 x 為自變數，將之代入條式度：

p(x)=\sigma (t)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x)}}}

當中 p(x) 可以設為應變數嘅值為 1 嘅機率^[13]。由上述嘅式可見，應變數並非同分佈^{[註 4]}：唔同個案中 $P(Y_{i}=1\mid X)$ 嘅值都可以唔同^[14]。

泊淞迴歸

Thumb — 唔同 $\lambda$ 下嘅泊淞分佈

内文：泊淞迴歸

睇埋：生還模型

廣義線性模型可以配合泊淞分佈嚟用。泊淞分佈係一種常見嘅概率分佈，可以用嚟描述單位時間或者單位空間內預期事件會出現幾多次，其概率質量函數為：

P(Y=k)={\frac {\lambda ^{k}e^{-\lambda }}{k!}},\quad k=0,1,2,\dots

當中 $\lambda$ 係預期事件會發生幾多次（平均率）而 k 就係事件實際發生嘅次數。呢種分佈適合用嚟模擬數數據，噉係因為呢啲數據只能夠取非負嘅整數值^{[註 5]}，就好似個函數嘅 k 噉^[15]，例子包括：某間商店每日接待幾多個客、某醫院每日錄到幾多入院個案、某條馬路上每月發生幾多單交通意外... 等等^{[註 6]}。

喺泊淞迴歸模型之中，Y 會設為想預測嗰個應變數，假設係跟泊淞分佈嘅，而對數就係模型嘅連結函數^{[註 7]}。噉設 $\mathbf {x} \in \mathbb {R} ^{n}$ 做自變數向量，個模型望落會係噉嘅樣^[16]：

\log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\mathbf {\beta } '\mathbf {x} ,

^{[註 8]}

喺進階啲嘅使用之中，統計師好多時仲會加返個暴露量^{[註 9]} E_i 入去個模型度，暴露量模擬嘅係基數，令到個模型係模擬事件發生嘅率而非事件嘅絕對數量，即係噉：

{\displaystyle \log

掉一掉就會變成：

\log(\mu _{i})=\log(E_{i})+\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}

暴露量嘅具體數值，可以嚟自打前收集到嘅數據嘅平均值。

Remove ads

睇埋

註釋

[1]
不過淨係靠迴歸模型，唔能夠確立變數間嘅因果關係。詳情可以睇睇實驗操作等嘅概念。
[2]
即係話伯努利分佈處理嘅變數實係離散嘅，唔似得例如線性迴歸噉可以處理連續數值。
[3]
順帶一提，邏輯剔函數仲有一種更廣義化嘅形式，係噉：
$p(x)={\frac {1}{1+e^{-(x-\mu )/s}}}$
當中 μ 同 s 係參數，其數值可以由分析者設定，用嚟更改條 curve 嘅位置同形狀。
[4]
詳情可以睇睇獨立同分佈嘅概念。
[5]
唔似得例如常態分佈。
[6]
假如模擬緊嘅現象有成功定失敗噉嘅二元結果，二項迴歸會啱用啲。
[7]
用咗對數做連結函數，表示預測值實會係正數。
[8]
假如個模型有問題（譬如係冇考慮現實中存在嘅非線性關係），往往會出現過度離勢嘅情況。
[9]
英文：exposure

Remove ads

引述

Loading content...

外拎

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads