热门问题
时间线
聊天
视角
分段回歸
来自维基百科,自由的百科全书
Remove ads
分段回歸是一種回歸分析方法,將自變量劃為若干區間,並分別擬合出單獨的線段。通過對各種自變量分區,也可以對多元數據進行分區回歸分析。自變量聚類為不同組別時,這些區域的變量之間會表現出不同的關係,這時分段回歸就非常有用。分段之間的界限就是間斷點。
分段線性回歸就是分段回歸,通過線性回歸得到區間內的關係。
2段線性回歸



分2段線性回歸的段間有1個間斷點,可用來量化影響因素(x)變化的響應函數(Yr)的突然變化。間斷點可解釋為臨界值、安全值或閾值,過該值會產生(非)預期效果。間斷點對決策非常重要。[1]
這些圖表說明了可獲得的一些結果和回歸類型。
分段回歸分析基於一組( y, x )數據,其中y是因變量,x是自變量。
最小二乘法分別適用於每個分段,通過這種方法,兩條回歸線可以分別擬合數據集,同時使因變量觀測值(y)與計算值(Yr)之間的差值平方和(SSD)最小化:
- Yr = A1.x + K1 其中x < BP(間斷點)
- Yr = A2.x + K2 其中x > BP(間斷點)
其中
- Yr是一定值x下y的期望(預測)值;
- A1、A2是回歸係數(表示線段斜率);
- K1、K2是回歸常數(表示y軸截距)。
數據可能顯示多種類型或趨勢,[2]見圖。
該方法還能得到2個相關係數(R):
- 其中x < BP(間斷點)
及
- 其中x > BP(間斷點)
其中
- 是每段的最小化SSD
,而
- Ya1、Ya2是各自區間y的均值。
在確定最合適的趨勢時,必須進行統計檢驗,以確保趨勢可靠(顯著)。
如果無法檢測到明顯的斷點,則必須採用無斷點回歸。
Remove ads
例子

右邊的藍色圖給出了芥菜產量(Yr = Ym, t/ha)和土壤鹽化(x = Ss,用土壤溶液導電率EC表示,單位為dS/m)之間的關係:[3]
BP = 4.93, A1 = 0, K1 = 1.74, A2 = −0.129, K2 = 2.38, R12 = 0.0035(不顯著), R22 = 0.395(顯著),以及:
- Ym = 1.74 t/ha 對於Ss < 4.93(斷點)
- Ym = −0.129 Ss + 2.38 t/ha 對於Ss > 4.93(斷點)
表明土壤鹽度< 4.93 dS/m是安全的,而土壤鹽度> 4.93 dS/m則會使土壤鹽度每增加一個單位減產0.129 t/ha。
下圖還顯示了置信區間和不確定性。
Remove ads
測試程序


以下統計檢驗用於確定趨勢類型:
- 將BP表示為回歸係數A1、A2與y數據均值Y1、Y2,以及x數據均值X1、X2(BP的左右),利用加法和乘法的誤差傳播規律計算BP的標準差(SE),並應用T檢驗,從而確定斷點(BP)的顯著性
- 應用T分布和A1、A2的標準差SE,檢驗A1、A2的顯著性
- 利用A1、A2差的SE,採用T分布檢驗差的顯著性
- 利用Y1、Y2差的SE,運用T分布檢驗差的顯著性
- 檢驗是否有斷點的一種更正式的統計方法是偽分數檢驗,無需估計分段線。[4]
此外,還使用了所有數據的相關係數(Ra)、決定係數或解釋係數、回歸函數的信賴區間及ANOVA分析。[5] 在顯著性檢驗設定的條件下,所有數據的決定係數(Cd)應達到最大值,其計算公式為
其中Yr是根據前回歸方程得出的y的預期(預測)值,Ya是所有y值的均值。
Cd係數介於0(完全沒有解釋)和1(完全解釋,完全匹配)之間。
在純粹的非分段線性回歸中,Cd=Ra2。在分段回歸中,Cd要明顯大於Ra2才能證明分段的合理性。
無效應範圍

分段回歸常用於檢測解釋變量(X)對因變量(Y)無效應的範圍。 無效應範圍可能在X域的前部,也可能在後部。對於「無效應」分析,應用最小二乘法進行分段回歸分析[6]可能不是最合適的技術,因為其目的是找到Y-X關係可被視為零斜率的最長延伸段,在之外,斜率與零有顯著差異,但有關該斜率最佳值的知識並不重要。找到無效應範圍的方法是對該範圍進行漸進式部分回歸[7],小步擴展範圍,直到回歸係數與零有顯著差異。
在下圖中,X=7.9時找到了斷點,而對於相同的數據(芥菜產量見上圖藍色部分),最小二乘法僅在X=4.9時得到斷點。後者的值較低,但對間斷點以外數據的擬合效果更好。因此,採用哪種方法取決於分析的目的。
另見
參考文獻
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads