상위 질문
타임라인
채팅
관점
더빈-왓슨 통계량
위키백과, 무료 백과사전
Remove ads
통계학에서 더빈-왓슨 통계량(Durbin–Watson statistic)은 회귀 분석의 잔차(예측 오차)에서 지연 1의 자기상관 존재 여부를 감지하는 데 사용되는 검정통계량이다. 제임스 더빈과 제프리 왓슨의 이름을 따서 명명되었다. 이 비율의 작은 표본 분포는 존 폰 노이만이 도출했다(von Neumann, 1941). 더빈과 왓슨(1950, 1951)은 이 통계량을 정규방정식 회귀 잔차에 적용하여, 오차가 1차 자기회귀모형을 따르는 대안에 대해 오차가 계열적으로 비상관적이라는 귀무 가설에 대한 경계 검정을 개발했다. 이 검정통계량의 분포는 추정된 회귀 계수와 오차의 분산에 의존하지 않는다는 점에 유의해야 한다.[1]
유사한 평가는 브로이쉬-고드프리 검정 및 룽-박스 검정으로도 수행할 수 있다.
더빈-왓슨 통계량 계산 및 해석
요약
관점
만약 가 로 주어진 잔차라면, 더빈-왓슨 검정통계량은 다음과 같다.
여기서 는 관측치 수이다. 가 클 때, 는 대략 와 같으며, 여기서 는 지연 1에서 잔차의 표본 자기상관이다.[2] 따라서 는 자기상관이 없음을 나타낸다. 의 값은 항상 과 사이에 있다. 더빈-왓슨 통계량이 2보다 상당히 작으면 양의 계열 상관에 대한 증거가 있다. 대략적인 경험 법칙으로, 더빈-왓슨이 1.0보다 작으면 경고의 원인이 될 수 있다. 의 작은 값은 연속적인 오차 항이 양의 상관 관계를 가짐을 나타낸다. 만약 이면 연속적인 오차 항은 음의 상관 관계를 가진다. 회귀에서 이는 통계적 유의성 수준의 과소평가를 의미할 수 있다.
유의수준 에서 양의 자기상관을 검정하기 위해, 검정통계량 는 하한 및 상한 임계값( 및 )과 비교된다.
- 만약 이면 오차 항이 양의 자기상관을 가진다는 통계적 증거가 있다.
- 만약 이면 오차 항이 양의 자기상관을 가진다는 통계적 증거가 없다.
- 만약 이면 검정은 결론이 나지 않는다.
양의 계열 상관은 한 관측치에 대한 양의 오차가 다른 관측치에 대한 양의 오차 가능성을 증가시키는 계열 상관이다.
유의수준 에서 음의 자기상관을 검정하기 위해, 검정통계량 는 하한 및 상한 임계값( 및 )과 비교된다.
- 만약 이면 오차 항이 음의 자기상관을 가진다는 통계적 증거가 있다.
- 만약 이면 오차 항이 음의 자기상관을 가진다는 통계적 증거가 없다.
- 만약 이면 검정은 결론이 나지 않는다.
음의 계열 상관은 한 관측치에 대한 양의 오차가 다른 관측치에 대한 음의 오차 가능성을 증가시키고, 한 관측치에 대한 음의 오차가 다른 관측치에 대한 양의 오차 가능성을 증가시킨다는 것을 의미한다.
임계값 와 는 유의수준()과 회귀 방정식의 자유도 (통계학)에 따라 달라진다. 이들의 도출은 복잡하며, 통계학자들은 일반적으로 통계 서적의 부록에서 이들을 얻는다.
회귀의 디자인 매트릭스 가 알려진 경우, 계열 상관이 없다는 귀무 가설 하에서 분포의 정확한 임계값을 계산할 수 있다. 귀무 가설 하에서 는 다음과 같이 분포된다.
여기서 은 관측치 수이고 는 회귀 변수의 수이며, 는 독립적인 표준 정규 분포 확률 변수이고, 는 의 0이 아닌 고유값이다. 여기서 는 잔차를 통계량으로 변환하는 행렬, 즉 이다.[3] 이 분포의 백분위수를 찾는 여러 계산 알고리즘이 제공된다.[4]
계열 상관은 추정된 회귀 계수의 일관성에 영향을 미치지 않지만, 유효한 통계 검정을 수행하는 능력에는 영향을 미친다. 첫째, 양의 계열 상관 하에서는 회귀의 전반적인 유의성을 검정하는 F-통계량이 부풀려질 수 있는데, 이는 평균 제곱 오차(MSE)가 모집단 오차 분산을 과소평가하는 경향이 있기 때문이다. 둘째, 양의 계열 상관은 일반적으로 회귀 계수에 대한 정규방정식 (OLS) 표준 오차가 실제 표준 오차를 과소평가하도록 한다. 결과적으로, 회귀에 양의 계열 상관이 존재하면 표준 선형 회귀 분석은 회귀 계수에 대해 인위적으로 작은 표준 오차를 계산하게 된다. 이러한 작은 표준 오차는 추정된 t-통계량을 부풀려, 실제로는 유의하지 않은 곳에서도 유의성을 암시하게 된다. 부풀려진 t-통계량은 결과적으로 표준 오차가 올바르게 추정되었을 때보다 회귀 모형의 매개변수의 모집단 값에 대한 귀무 가설을 잘못 기각하게 만들 수 있다.
더빈-왓슨 통계량이 잔차의 계열 상관 존재를 나타내면, 코크런-오르컷 추정을 사용하여 이를 보정할 수 있다.
더빈-왓슨 통계량은 많은 회귀 분석 프로그램에서 표시되지만, 특정 상황에서는 적용할 수 없다. 예를 들어, 설명 변수에 지연된 종속 변수가 포함된 경우 이 검정을 사용하는 것은 부적절하다. 이 경우 더빈의 h-검정(아래 참조) 또는 대규모 표본에서 유효한 가능도 비율 검정을 사용해야 한다.
Remove ads
더빈 h-통계량
요약
관점
더빈-왓슨 통계량은 자기회귀 이동 평균 모형에 대해 편향되어 자기상관이 과소평가된다. 그러나 대규모 표본의 경우 편향되지 않은 정규 분포된 h-통계량을 쉽게 계산할 수 있다.
더빈-왓슨 통계량 d와 지연된 종속 변수의 회귀 계수의 추정된 분산
을 사용하며, 단 조건은
Remove ads
통계 패키지 구현
- R: lmtest 패키지의
dwtest함수, car 패키지의durbinWatsonTest(또는 짧게 dwt) 함수, plm 패키지의 패널 모델을 위한pdwtest및pbnftest.[5] - 매트랩: Statistics Toolbox의 dwtest 함수.
- Mathematica: Durbin–Watson (d) 통계량은 LinearModelFit 함수의 옵션으로 포함되어 있다.
- SAS: proc model 사용 시 표준 출력이며, proc reg 사용 시 옵션 (dw)이다.
- EViews: OLS 회귀 사용 시 자동 계산된다.
- Gretl: OLS 회귀 사용 시 자동 계산된다.
- Stata: 시계열 데이터에서
regress다음에 오는estat dwatson명령.[6] ARCH 모형 (시변 변동성 검정), 브로이쉬-고드프리 검정, 그리고 자기상관에 대한 더빈의 대체 검정 또한 사용할 수 있다. 모든 검정 (-dwatson- 제외)은 고차 자기상관을 개별적으로 검정한다. 브로이쉬-고드프리 검정과 더빈의 대체 검정은 엄격하게 외생적이지 않은 회귀 변수도 허용한다. - Excel: 마이크로소프트 엑셀 2007에는 특정 더빈-왓슨 함수가 없지만, d-통계량은
=SUMXMY2(x_array,y_array)/SUMSQ(array)를 사용하여 계산할 수 있다. - Minitab: 세션 창에서 통계량을 보고하는 옵션은 회귀 아래의 "옵션" 상자와 일반 회귀 아래의 "결과" 상자에서 찾을 수 있다.
- 파이썬: statsmodels 패키지(
statsmodels.stats.stattools.durbin_watson)에 durbin_watson 함수가 포함되어 있지만, 임계값에 대한 통계표는 제공되지 않는다. - SPSS: 회귀 함수의 옵션으로 포함되어 있다.
- Julia: HypothesisTests 패키지에서 DurbinWatsonTest 함수를 사용할 수 있다.[7]
같이 보기
- 시계열 회귀
- ACF / PACF
- 상관 차원
- 브로이쉬-고드프리 검정
- 룽-박스 검정
각주
추가 자료
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads