廣義線性模型

From Wikipedia, the free encyclopedia

廣義線性模型
Remove ads

廣義線性模型(參見英文GLM)係統計分析一種,始於二十世紀。做研究嘅人靠住廣義線性模型,可以得知某個應變數同若干個自變數間有乜嘢關係。譬如依家做宏觀經濟學研究,研究者量度一個國家或地區嘅各種條件,包括係個國家地區嘅人口利率以及失業率等,想知道呢啲自變數會點樣影響本地生產總值呢個應變數。

Thumb
迴歸分析可以用嚟展現兩個變數(圖中打橫軸打戙軸)之間成咩關係。廣義線性模型都可以做到呢點,但就唔使假設啲變數呈常態分佈

一般認為,廣義線性模型有個好處,就係比較有彈性,唔使假設啲變數常態分佈。喺諸如經濟學醫學工程學等好多領域,研究緊嘅變數好多時都唔跟從常態分佈,而普通嘅迴歸分析假設咗啲變數跟常態分佈,就好多時都用唔著。喺呢啲情況下,研究者有必要用廣義線性模型,先可以解答手上嘅問題。

廣義線性模型係廣義化嘅模型。普通嘅迴歸分析可以當係廣義線性模型嘅特殊個案,係假設啲變數呈常態分佈嘅廣義線性模型。除此之外,廣義線性模型仲可以包含好多種統計模型,譬如係邏輯迴歸同埋泊淞迴歸呀噉。

Remove ads

背景概念

迴歸分析[1]統計學入便一種基礎嘅統計模型,用嚟剖析一個應變數 DV 同若干個自變數 IV 之間嘅關係。簡單嚟講,迴歸模型可以由數據當中搵出規律,建立一個類似噉嘅模型[2]

;當中
  • 代表咗截距
  • 、同 分別代表咗三個 IV;
  • 代表咗 呢個 IV 對個 DV 有幾大影響力,其他嗰兩個 都係同一道理。
  • 殘差項

由過往數據得出模型,研究者就可以更深入理解研究緊嘅現象(知道啲 IV 係咪真係能夠預測 DV [註 1])而且將來佢攞住個模型,仲可以透過量度 IV 值嚟預測 DV 值。舉個應用例子:想像依家要做營銷,一間企業睇吓過往嘅數據,建立迴歸模型描述廣告費用同營業額之間嘅關係,得出個模型之後,就可以得知

「廣告費用每增加 1,000 文,營業額平均會升 5,000 文」

噉嘅資訊,當中廣告費用係自變數(用嚟做預測)而營業額係應變數(被預測嗰個)。班研究者有咗個模型,第時就做預測同埋幫手制定營銷策略

傳統上,迴歸分析會假設咗啲變數嘅量度誤差服從常態分佈[3],即係話呢啲變數理應係噉:大部分數值都集中喺平均值附近,極端數值較少出現。假如研究緊嘅變數唔服從常態分佈,又照用迴歸分析,就會搞到得出嘅模型唔準確[4]

Remove ads

模型基礎

廣義線性模型嘅重點特徵,在於佢比較廣義化

喺實際應用上,好多變數的確係大致跟常態分佈嘅,所以迴歸分析嘅假設冇問題,但又有多變數嘅數據明顯唔符合常態分佈,譬如sou2數據(想像分析某產品每日賣出幾多件)嘅誤差可能會呈泊松分佈而非常態分佈[5],而且好多描述人類行為嘅變數都會有好多極端值[6],有高嘅偏度峰度,呢啲噉嘅變數就難以用迴歸分析嚟研究。不過,呢啲變數喺各門社會科學度都好常見。


Thumb
呢幅圖打橫條軸係「個變數嘅可能數值」而打戙條軸係「每個值出現嘅機率」。呢幅入便嗰個變數跟從常態分佈。


廣義線性模型有助應付呢個問題,因為呢種分析方法放寬咗對誤差嘅假設。喺廣義線性模型入便,個應變數 Y 每個出到嘅數值都假設咗係由某種指數型分佈[7]產生嘅。指數型分佈包括好多種概率分佈,諸如常態分佈二項分佈泊淞分佈以及伽瑪分佈等等。噉:

呢度嘅 E(Y | X) 係 YX 條件下嘅期望值,簡單講即係已知 X 嘅值,預期 Y 會係幾多;Xβ線性預測子[8],即係未知參數 β 嘅線性組合,最後 g 就係連結函數[9]。未知參數 β 可以用最大似然估計或者貝葉斯式嘅技術嚟估計[10]。呢個概念可以當係線性迴歸同埋邏輯迴歸廣義化-譬如喺線性迴歸當中,g恆等函數

Remove ads

模型類型

廣義線性模型可以分好多種。最簡單嗰種線性迴歸模型假設變數係跟常態分佈,而視乎數據嘅種類,統計師可以選用嘅模型仲有好多種。

泊淞模型

Thumb
唔同 下嘅泊淞分佈
内文:泊淞迴歸
睇埋:生還模型

廣義線性模型可以配合泊淞分佈嚟用。泊淞分佈係一種常見嘅概率分佈,可以用嚟描述單位時間或者單位空間內預期事件會出現幾多次,其概率質量函數為:

當中 預期事件會發生幾多次(平均率)而 k 就係事件實際發生嘅次數。呢種分佈適合用嚟模擬數數據,噉係因為呢啲數據只能夠取非負嘅整數值[註 2],就好似個函數嘅 k 噉[11],例子包括:某間商店每日接待幾多個客、某醫院每日錄到幾多入院個案、某條馬路上每月發生幾多單交通意外... 等等[註 3]

泊淞迴歸模型之中,Y 會設為想預測嗰個應變數,假設係跟泊淞分佈嘅,而對數就係模型嘅連結函數[註 4]。噉設 自變數向量,個模型望落會係噉嘅樣[12]

[註 5]

喺進階啲嘅使用之中,統計師好多時仲會加返個暴露量[註 6] Ei 入去個模型度,暴露量模擬嘅係基數,令到個模型係模擬事件發生嘅率而非事件嘅絕對數量,即係噉:

掉一掉就會變成:

暴露量嘅具體數值,可以嚟自打前收集到嘅數據嘅平均值。

邏輯迴歸

内文:邏輯迴歸

二項迴歸

内文:二項迴歸
Remove ads

睇埋

註釋

  1. 不過淨係靠迴歸模型,唔能夠確立變數間嘅因果關係。詳情可以睇睇實驗操作等嘅概念。
  2. 唔似得例如常態分佈
  3. 假如模擬緊嘅現象有成功定失敗噉嘅二元結果,二項迴歸會啱用啲。
  4. 用咗對數做連結函數,表示預測值實會係正數。
  5. 假如個模型有問題(譬如係冇考慮現實中存在嘅非線性關係),往往會出現過度離勢嘅情況。
  6. 英文exposure

引述

外拎

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads