廣義線性模型

From Wikipedia, the free encyclopedia

廣義線性模型
Remove ads

廣義線性模型(參見英文GLM)係統計分析一種,始於二十世紀。做研究嘅人靠住廣義線性模型,可以得知某個應變數同若干個自變數間有乜嘢關係。譬如依家做宏觀經濟學研究,研究者量度一個國家或地區嘅各種條件,包括係個國家地區嘅人口利率以及失業率等,想知道呢啲自變數會點樣影響本地生產總值呢個應變數。

Thumb
迴歸分析可以用嚟展現兩個變數(圖中打橫軸打戙軸)之間成咩關係。廣義線性模型都可以做到呢點,但就唔使假設啲變數呈常態分佈

一般認為,廣義線性模型有個好處,就係比較有彈性,唔使假設啲變數常態分佈。喺諸如經濟學醫學工程學等好多領域,研究緊嘅變數好多時都唔跟從常態分佈,而普通嘅迴歸分析假設咗啲變數跟常態分佈,就好多時都用唔著。喺呢啲情況下,研究者有必要用廣義線性模型,先可以解答手上嘅問題。

廣義線性模型係廣義化嘅模型。普通嘅迴歸分析可以當係廣義線性模型嘅特殊個案,係假設啲變數呈常態分佈嘅廣義線性模型。除此之外,廣義線性模型仲可以包含好多種統計模型,譬如係邏輯迴歸同埋泊淞迴歸呀噉。

Remove ads

背景概念

迴歸分析[1]統計學入便一種基礎嘅統計模型,用嚟剖析一個應變數 DV 同若干個自變數 IV 之間嘅關係。簡單嚟講,迴歸模型可以由數據當中搵出規律,建立一個類似噉嘅模型[2]

;當中
  • 代表咗截距
  • 、同 分別代表咗三個 IV;
  • 代表咗 呢個 IV 對個 DV 有幾大影響力,其他嗰兩個 都係同一道理。
  • 殘差項

由過往數據得出模型,研究者就可以更深入理解研究緊嘅現象(知道啲 IV 係咪真係能夠預測 DV [註 1])而且將來佢攞住個模型,仲可以透過量度 IV 值嚟預測 DV 值。舉個應用例子:想像依家要做營銷,一間企業睇吓過往嘅數據,建立迴歸模型描述廣告費用同營業額之間嘅關係,得出個模型之後,就可以得知

「廣告費用每增加 1,000 文,營業額平均會升 5,000 文」

噉嘅資訊,當中廣告費用係自變數(用嚟做預測)而營業額係應變數(被預測嗰個)。班研究者有咗個模型,第時就做預測同埋幫手制定營銷策略

傳統上,迴歸分析會假設咗啲變數嘅量度誤差服從常態分佈[3],即係話呢啲變數理應係噉:大部分數值都集中喺平均值附近,極端數值較少出現。假如研究緊嘅變數唔服從常態分佈,又照用迴歸分析,就會搞到得出嘅模型唔準確[4]

Remove ads

模型基礎

廣義線性模型嘅重點特徵,在於佢比較廣義化

喺實際應用上,好多變數的確係大致跟常態分佈嘅,所以迴歸分析嘅假設冇問題,但又有多變數嘅數據明顯唔符合常態分佈,譬如sou2數據(想像分析某產品每日賣出幾多件)嘅誤差可能會呈泊松分佈而非常態分佈[5],而且好多描述人類行為嘅變數都會有好多極端值[6],有高嘅偏度峰度,呢啲噉嘅變數就難以用迴歸分析嚟研究。不過,呢啲變數喺各門社會科學度都好常見。


Thumb
呢幅圖打橫條軸係「個變數嘅可能數值」而打戙條軸係「每個值出現嘅機率」。呢幅入便嗰個變數跟從常態分佈。


廣義線性模型有助應付呢個問題,因為呢種分析方法放寬咗對誤差嘅假設。喺廣義線性模型入便,個應變數 Y 每個出到嘅數值都假設咗係由某種指數型分佈[7]產生嘅。指數型分佈包括好多種概率分佈,諸如常態分佈二項分佈泊淞分佈以及伽瑪分佈等等。噉:

呢度嘅 E(Y | X) 係 YX 條件下嘅期望值,簡單講即係已知 X 嘅值,預期 Y 會係幾多;Xβ線性預測子[8],即係未知參數 β 嘅線性組合,最後 g 就係連結函數[9]。未知參數 β 可以用最大似然估計或者貝葉斯式嘅技術嚟估計[10]。呢個概念可以當係線性迴歸同埋邏輯迴歸廣義化-譬如喺線性迴歸當中,g恆等函數

Remove ads

模型類型

GLM 可以包括唔同類型嘅模型。各種模型之間嘅分別,主要在於佢哋用邊種概率分佈嚟模擬要預測嘅變數,以及係呢個分佈條式入便嘅各個項,要點樣設成預測子線性組合。最基本嗰種線性迴歸模型假設應變數跟從常態分佈,用一眾自變數嘅線性組合,預測呢個常態分佈嘅平均值[11];而視乎數據嘅種類,統計師仲可以選用好多唔同類型嘅模型。

較進階嘅分析,仲可以結合多種模型,例如首先用邏輯迴歸預測個應變數係咪正數,然後再用線性迴歸預測佢數值係幾多。

邏輯迴歸

Thumb
標準嘅邏輯剔函數
對所有嘅
内文:邏輯迴歸

邏輯迴歸係一種常見嘅迴歸分析方法,基於伯努利分佈,可以用嚟處理二元分類問題。呢種分佈嘅概率質量函數為:

當中 係事件發生嘅概率而 y 就係實際結果(1 代表發生,0 代表冇發生)。呢種分佈適合攞嚟模擬成功定係失敗嘅二元結果[註 2],例子包括病人會唔會好返、學生考試會唔會合格、客戶會唔會買件產品、電郵係唔係垃圾郵件... 等等[12]。然後想像邏輯剔函數嘅概念,邏輯剔函數可以用嚟將任意實數輸入變換到 0 至 1 之間,屬於 Sigmoid 函數嘅一種。邏輯剔函數個標準形式係:

[註 3]

行邏輯迴歸 fit 嘅模型,就係好似以下噉:

當中 x 為自變數,將之代入條式度:

當中 p(x) 可以設為應變數嘅值為 1 嘅機率[13]。由上述嘅式可見,應變數並非同分佈[註 4]:唔同個案中 嘅值都可以唔同[14]

泊淞迴歸

Thumb
唔同 下嘅泊淞分佈
内文:泊淞迴歸
睇埋:生還模型

廣義線性模型可以配合泊淞分佈嚟用。泊淞分佈係一種常見嘅概率分佈,可以用嚟描述單位時間或者單位空間內預期事件會出現幾多次,其概率質量函數為:

當中 預期事件會發生幾多次(平均率)而 k 就係事件實際發生嘅次數。呢種分佈適合用嚟模擬數數據,噉係因為呢啲數據只能夠取非負嘅整數值[註 5],就好似個函數嘅 k 噉[15],例子包括:某間商店每日接待幾多個客、某醫院每日錄到幾多入院個案、某條馬路上每月發生幾多單交通意外... 等等[註 6]

泊淞迴歸模型之中,Y 會設為想預測嗰個應變數,假設係跟泊淞分佈嘅,而對數就係模型嘅連結函數[註 7]。噉設 自變數向量,個模型望落會係噉嘅樣[16]

[註 8]

喺進階啲嘅使用之中,統計師好多時仲會加返個暴露量[註 9] Ei 入去個模型度,暴露量模擬嘅係基數,令到個模型係模擬事件發生嘅率而非事件嘅絕對數量,即係噉:

掉一掉就會變成:

暴露量嘅具體數值,可以嚟自打前收集到嘅數據嘅平均值。

Remove ads

睇埋

註釋

  1. 不過淨係靠迴歸模型,唔能夠確立變數間嘅因果關係。詳情可以睇睇實驗操作等嘅概念。
  2. 即係話伯努利分佈處理嘅變數實係離散嘅,唔似得例如線性迴歸噉可以處理連續數值
  3. 順帶一提,邏輯剔函數仲有一種更廣義化嘅形式,係噉:

    當中 μ 同 s 係參數,其數值可以由分析者設定,用嚟更改條 curve 嘅位置同形狀。
  4. 詳情可以睇睇獨立同分佈嘅概念。
  5. 唔似得例如常態分佈
  6. 假如模擬緊嘅現象有成功定失敗噉嘅二元結果,二項迴歸會啱用啲。
  7. 用咗對數做連結函數,表示預測值實會係正數。
  8. 假如個模型有問題(譬如係冇考慮現實中存在嘅非線性關係),往往會出現過度離勢嘅情況。
  9. 英文exposure
Remove ads

引述

外拎

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads