广义线性模型 - Wikiwand
For faster navigation, this Iframe is preloading the Wikiwand page for 广义线性模型.

广义线性模型

维基百科,自由的百科全书

此条目部分链接不符合格式手册规范。跨语言链接及章节标题等处的链接可能需要清理。 (2015年12月11日)请协助改善此条目。参见WP:LINKSTYLE、WP:MOSIW以了解细节。突出显示跨语言链接可以便于检查。

统计学上, 广义线性模型 (Generalized linear model (GLM)) 是一种应用灵活的线性回归模型,简称GLM。该模型允许因变量的偏差分布有除了正态分布之外的其它分布。此模型假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数(link function)建立起可资解释其相关性的函数。

John NelderPeter McCullagh在1989年出版,被视为广义线性模式的代表性文献中提纲挈领地说明了广义线性模式的原理、计算(如最大概似估计量)及其实务应用。

概说

广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在广义线性模式中,假设每个资料的观测值来自某个指数族分布。 该分布的平均数 可由与该点独立的X解释:

其中期望值是由未知待估计参数与已知变量构成的线性估计式,则为链接函数。

在此模式下,的方差可表示为:

一般假设可视为一指数族随机变量函数

未知参数通常会以最大概似估计量, 殆最大概似估计量, 或以贝氏方法来估计。

模式组成

广义线性模式包含了以下主要部分:

1. 来自指数族的分布函数
2. 线性预测子
3. 链接函数使得

指数族

指数族随机变量意指其具参数θτ概率密度函数, f (在论离散型随机变量时,则为概率质量函数)可表为:

τ称之为变异参数,通常用以解释方差。函数abcdh为已知。许多(不包含全部)型态的随机变量可归类为指数族

θ与该随机变量的期望值有关。若a恒等函数,则称该分布属于 正则型式。 另外,若b为恒等而τ已知,则θ称为正则参数,其与期望值的关系可表为:

一般情形下,该分布的方差可表为:

线性预测子

线性预测子是用将独立变量经由线性组合来寻模式所能提供之资讯的计量变量。符号η (希腊字母 "Η")通常用来表示线性预测子。它与资料的期望值的链接函数值有关(故称"预测子")。

η表为未知参数β的线性组合(故为"线性")。X则为独立变量所组合而成的观测矩阵。如此一来,η可表示为

X的元素通常为模式设计时可观测的资料或为实验时所得的数据。

链接函数

链接函数解释了线性预测子与分布期望值的关系。链接函数的选择可视情形而定。通常只要符合链接函数的值域有包含分布期望值的条件即可。

当使用具正则参数θ的分布时,链接函数需符合XTYβ的充份统计量此一条件。这在θ与线性预测子的链接函数值相等时方成立。下面列出若干指数族分布的典则链接函数及其反函数(有时称为均值函数):

典则链接函数
Y的分布 名称 链接函数 均值函数
正态 恒等
指数 倒数
Gamma
逆高斯 二次倒数
卜瓦松 自然对数
二项式 Logit
多项式

在指数分布与Gamma分布中,其典则链接函数的值域并不包含分布均值,另外其线性预测子亦可能出现负值,此两种分布绝无均值为负的可能。当进行极大似然估计进行计算时需避免上述情形出现,这时便需要使用到非典则链接函数。

范例

一般线性模式

有些人可能会把一般线性模式和广义线性模式给弄混了。一般线性模式可视为广义线性模式的一个链接函数为恒等的特例。一般线性模式有着悠长的发展历史。广义线性模式具非恒等链接函数者有着渐近一致的结果。

线性回归

广义线性模式最简单的例子便是线性回归。此例中分布函数为正态分布而链接函数为恒等函数在方差已知的条件下并符合正规式。 这个例子具有广义线性模式罕有的最大概似估计量的解析解

二元资料

在讨论二元反应结果(如没有)时,通常以二项式分布建模。其期望值'μi通常解释为样本Yi发生事件的概率p

二项式分布有许多常用的链接函数,最常用的链接函数是logit

以此建模的广义线性模式通常称为logistic回归模式。

另外,任何连续型概率分配累积函数(CDF)的反函数皆可使用此模式,因为其值域为[0,1],包含了二项式分布期望值的可能值域。正态概率分配累积函数是一个广受应用于probit模式的选择。其链接函数为

有时恒等函数也会被用为二项式分布的链接函数,其缺点为预测值可能超出合理范围。经过若干修正可以避免上述问题,但会在解释上造成困难。此模式通常适用于p接近0.5的情形。 此种建模很接近logit及probit的线性转换,有时计量经济学家会称其为Harvard模式。

二元资料的广义线性模式变异函数可写为

其中变异参数通常等于1,若非,则该模式称为溢变异或殆二元。

计次资料

另一个常用的例子为用于计次的卜瓦松分布。此例的链接函数为自然对数,为正规链接。 方差函数与均值成等比

其中变异参数通常为1。 若非,此模式通常称为溢变异或似卜瓦松。

参考文献

  • Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models. Chapman & Hall/CRC. 1990. ISBN 978-0-412-34390-2. 
  • Madsen, Henrik; Thyregod, Poul. Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. 2011. ISBN 978-1-4200-9155-7. 
  • McCullagh, Peter; Nelder, John. Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. 1989. ISBN 0-412-31760-5. 
  • Wood, Simon. Generalized Additive Models: An Introduction with R. Chapman & Hall/CRC. 2006. ISBN 1-58488-474-6. 

延伸阅读

  • McCullagh, Peter; John Nelder. Generalized Linear Models. London: Chapman and Hall. 1989. ISBN 0-412-31760-5. 
  • Dobson, A.J. Introduction to Generalized Linear Models, Second Edition. London: Chapman and Hall/CRC. 2001. 
  • Hardin, James; Joseph Hilbe. Generalized Linear Models and Extensions. College Station: Stata Press. 2001, 2007. 
{{bottomLinkPreText}} {{bottomLinkText}}
广义线性模型
Listen to this article