線性回歸
一種迴歸分析 / 維基百科,自由的 encyclopedia
在統計學中,線性回歸(英語:linear regression)是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和應變量之間關係進行建模的一種回歸分析。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。只有一個自變量的情況稱為簡單回歸,大於一個自變量情況的叫做多元回歸(multivariable linear regression)。[1]
在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。[2]最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分佈的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分佈,而不是X和y的聯合概率分佈(多元分析領域)。
線性回歸是回歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。[3]這是因為線性依賴於其未知參數的模型比非線性依賴於其未知參數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。
線性回歸有很多實際用途。分為以下兩大類:
- 如果目標是預測或者映射,線性回歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。
- 給定一個變量y和一些變量,...,,這些變量有可能與y相關,線性回歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的,並識別出哪些的子集包含了關於y的冗餘資訊。
線性回歸模型經常用最小平方逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化「擬合缺陷」在一些其他規範里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小平方損失函數的懲罰。相反,最小平方逼近可以用來擬合那些非線性的模型。因此,儘管「最小平方法」和「線性模型」是緊密相連的,但他們是不能劃等號的。
線性回歸的「回歸」指的是回歸到平均值(英語:regression toward the mean)。