廣義線性模型
From Wikipedia, the free encyclopedia
Remove ads
廣義線性模型(參見英文:GLM)係統計分析一種,始於二十世紀。做研究嘅人靠住廣義線性模型,可以得知某個應變數同若干個自變數間有乜嘢關係。譬如依家做宏觀經濟學研究,研究者量度一個國家或地區嘅各種條件,包括係個國家地區嘅人口、利率以及失業率等,想知道呢啲自變數會點樣影響本地生產總值呢個應變數。

一般認為,廣義線性模型有個好處,就係比較有彈性,唔使假設啲變數跟常態分佈。喺諸如經濟學、醫學、工程學等好多領域,研究緊嘅變數好多時都唔跟從常態分佈,而普通嘅迴歸分析假設咗啲變數跟常態分佈,就好多時都用唔著。喺呢啲情況下,研究者有必要用廣義線性模型,先可以解答手上嘅問題。
廣義線性模型係廣義化嘅模型。普通嘅迴歸分析可以當係廣義線性模型嘅特殊個案,係假設啲變數呈常態分佈嘅廣義線性模型。除此之外,廣義線性模型仲可以包含好多種統計模型,譬如係邏輯迴歸同埋泊淞迴歸呀噉。
Remove ads
背景概念
迴歸分析[1]係統計學入便一種基礎嘅統計模型,用嚟剖析一個應變數 DV 同若干個自變數 IV 之間嘅關係。簡單嚟講,迴歸模型可以由數據當中搵出規律,建立一個類似噉嘅模型[2]:
- ;當中
由過往數據得出模型,研究者就可以更深入理解研究緊嘅現象(知道啲 IV 係咪真係能夠預測 DV [註 1])而且將來佢攞住個模型,仲可以透過量度 IV 值嚟預測 DV 值。舉個應用例子:想像依家要做營銷,一間企業睇吓過往嘅數據,建立迴歸模型描述廣告費用同營業額之間嘅關係,得出個模型之後,就可以得知
- 「廣告費用每增加 1,000 文,營業額平均會升 5,000 文」
噉嘅資訊,當中廣告費用係自變數(用嚟做預測)而營業額係應變數(被預測嗰個)。班研究者有咗個模型,第時就做預測同埋幫手制定營銷策略。
傳統上,迴歸分析會假設咗啲變數嘅量度誤差服從常態分佈[3],即係話呢啲變數理應係噉:大部分數值都集中喺平均值附近,極端數值較少出現。假如研究緊嘅變數唔服從常態分佈,又照用迴歸分析,就會搞到得出嘅模型唔準確[4]。
Remove ads
模型基礎
廣義線性模型嘅重點特徵,在於佢比較廣義化。
喺實際應用上,好多變數的確係大致跟常態分佈嘅,所以迴歸分析嘅假設冇問題,但又有多變數嘅數據明顯唔符合常態分佈,譬如

廣義線性模型有助應付呢個問題,因為呢種分析方法放寬咗對誤差嘅假設。喺廣義線性模型入便,個應變數 Y 每個出到嘅數值都假設咗係由某種指數型分佈[7]產生嘅。指數型分佈包括好多種概率分佈,諸如常態分佈、二項分佈、泊淞分佈以及伽瑪分佈等等。噉:
呢度嘅 E(Y | X) 係 Y 喺 X 條件下嘅期望值,簡單講即係已知 X 嘅值,預期 Y 會係幾多;Xβ 係線性預測子[8],即係未知參數 β 嘅線性組合,最後 g 就係連結函數[9]。未知參數 β 可以用最大似然估計或者貝葉斯式嘅技術嚟估計[10]。呢個概念可以當係線性迴歸同埋邏輯迴歸嘅廣義化-譬如喺線性迴歸當中,g 係恆等函數。
Remove ads
模型類型
睇埋:線性迴歸模型
廣義線性模型可以分好多種。最簡單嗰種線性迴歸模型假設變數係跟常態分佈,而視乎數據嘅種類,統計師可以選用嘅模型仲有好多種。
泊淞模型

内文:泊淞迴歸
睇埋:生還模型
廣義線性模型可以配合泊淞分佈嚟用。泊淞分佈係一種常見嘅概率分佈,可以用嚟描述單位時間或者單位空間內預期事件會出現幾多次,其概率質量函數為:
當中 係預期事件會發生幾多次(平均率)而 k 就係事件實際發生嘅次數。呢種分佈適合用嚟模擬數數據,噉係因為呢啲數據只能夠取非負嘅整數值[註 2],就好似個函數嘅 k 噉[11],例子包括:某間商店每日接待幾多個客、某醫院每日錄到幾多入院個案、某條馬路上每月發生幾多單交通意外... 等等[註 3]。
喺泊淞迴歸模型之中,Y 會設為想預測嗰個應變數,假設係跟泊淞分佈嘅,而對數就係模型嘅連結函數[註 4]。噉設 做自變數向量,個模型望落會係噉嘅樣[12]:
喺進階啲嘅使用之中,統計師好多時仲會加返個暴露量[註 6] Ei 入去個模型度,暴露量模擬嘅係基數,令到個模型係模擬事件發生嘅率而非事件嘅絕對數量,即係噉:
掉一掉就會變成:
暴露量嘅具體數值,可以嚟自打前收集到嘅數據嘅平均值。
邏輯迴歸
内文:邏輯迴歸
二項迴歸
内文:二項迴歸
Remove ads
睇埋
註釋
引述
外拎
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads