상위 질문
타임라인
채팅
관점

다항식 회귀

위키백과, 무료 백과사전

다항식 회귀
Remove ads

통계학에서 다항식 회귀(polynomial regression)는 회귀 분석의 한 형태로, 독립변수 x와 종속변수 y 간의 관계가 x의 다항식으로 모델링된다. 다항식 회귀는 x 값과 해당 조건부 평균 y, 즉 E(y |x) 사이의 비선형 관계를 적합시킨다. 다항식 회귀는 데이터에 비선형 모델을 적합시키지만, 통계적 추정 문제로서는 회귀 함수 E(y | x)가 자료에서 추정된 미지의 매개변수에 대해 선형이라는 의미에서 선형적이다. 따라서 다항식 회귀는 선형 회귀의 특수한 경우이다.

Thumb
시뮬레이션된 데이터 세트에 적합한 3차 다항식 회귀. 신뢰 구간셰페의 방법을 사용하여 구성된 95% 동시 신뢰 구간이다.

"기준" 변수의 다항식 전개로 발생하는 설명(독립) 변수는 고차 항으로 알려져 있다. 이러한 변수는 분류 설정에서도 사용된다.[1]

Remove ads

역사

다항식 회귀 모델은 일반적으로 최소제곱법을 사용하여 적합된다. 최소제곱법은 가우스-마르코프 정리의 조건 하에 계수의 편향되지 않은 추정량분산을 최소화한다. 최소제곱법은 1805년 아드리앵마리 르장드르와 1809년 가우스에 의해 발표되었다. 다항식 회귀를 위한 실험의 첫 번째 설계는 1815년 조셉 디아즈 제르곤의 논문에 나타났다.[2][3] 20세기에는 다항식 회귀가 회귀 분석 발전에 중요한 역할을 했으며, 설계추론 문제에 더 큰 중점을 두었다.[4] 최근에는 다항식 모델의 사용이 다른 방법으로 보완되었으며, 비다항식 모델은 특정 유형의 문제에 대해 이점을 제공한다.

정의 및 예시

요약
관점

회귀 분석의 목표는 독립 변수(또는 독립 변수 벡터) x의 값에 따라 종속 변수 y의 기대값을 모델링하는 것이다. 단순 선형 회귀에서는 다음 모델이 사용된다.

여기서 ε은 스칼라 변수 x에 조건화된 평균이 0인 관측되지 않은 임의 오차이다. 이 모델에서 x 값이 단위 증가할 때마다 y의 조건부 기대값은 β1 단위만큼 증가한다.

많은 경우에 이러한 선형 관계가 성립하지 않을 수 있다. 예를 들어, 화학 합성의 수율을 합성이 일어나는 온도에 따라 모델링할 때, 온도가 단위 증가할 때마다 수율이 증가하는 양이 더 커지는 것을 발견할 수 있다. 이 경우 다음과 같은 이차 모델을 제안할 수 있다.

이 모델에서 온도가 x에서 x + 1 단위로 증가할 때 예상 수율은 만큼 변한다. (이것은 이 방정식에서 x를 x+1로 대체하고 x에 대한 방정식을 x+1에 대한 방정식에서 빼서 확인할 수 있다.) x의 무한소 변화에 대한 y의 영향은 x에 대한 전미분에 의해 주어진다: 수율의 변화가 x에 의존한다는 사실이 모델이 추정될 매개변수에 대해 선형임에도 불구하고 x와 y 사이의 관계를 비선형으로 만든다.

일반적으로 y의 기대값을 n차 다항식으로 모델링하여 일반적인 다항식 회귀 모델을 얻을 수 있다.

이러한 모델들은 회귀 함수가 미지의 매개변수 β0, β1, ...에 대해 선형이므로 추정 관점에서 모두 선형이다. 따라서 최소제곱법 분석의 경우 다항식 회귀의 계산 및 추론 문제는 다중 회귀 기법을 사용하여 완전히 해결할 수 있다. 이는 x, x2, ...를 다중 회귀 모델에서 별개의 독립 변수로 취급함으로써 이루어진다.

Remove ads

행렬 형식 및 추정치 계산

요약
관점

다항식 회귀 모델

디자인 매트릭스 , 반응 벡터 , 매개변수 벡터 , 및 임의 오차의 벡터 항으로 행렬 형식으로 표현될 수 있다. 의 i번째 행은 i번째 데이터 샘플에 대한 x 및 y 값을 포함한다. 그러면 모델은 연립 일차 방정식으로 작성될 수 있다.

순수 행렬 표기법을 사용하면 다음과 같이 작성된다.

추정된 다항식 회귀 계수의 벡터(정규방정식 추정 사용)는 다음과 같다.

행렬이 가역적이기 위해 필요한 m < n을 가정한다. 그러면 방데르몽드 행렬이므로, 모든 값이 서로 다르면 가역 조건이 보장된다. 이것이 유일한 최소제곱법 해이다.

확장된 공식

위의 행렬 방정식은 다항식 회귀의 동작을 잘 설명한다. 그러나 xy 점 쌍 집합에 대해 다항식 회귀를 실제로 구현하려면 더 많은 세부 정보가 유용하다. 다항식 계수에 대한 아래 행렬 방정식은 유도 없이 회귀 이론에서 확장되었으며 쉽게 구현된다.[5][6][7]

위의 연립 일차 방정식까지 푼 후, 회귀 다항식을 다음과 같이 구성할 수 있다.

Remove ads

해석

다항식 회귀는 엄밀히 말하면 다중 선형 회귀의 특수한 경우이지만, 적합된 다항식 회귀 모델의 해석은 다소 다른 관점을 필요로 한다. 기본 단항식이 고도로 상관될 수 있으므로 다항식 회귀 적합에서 개별 계수를 해석하기 어려운 경우가 많다. 예를 들어, x가 구간 (0, 1)에서 균일하게 분포될 때 x와 x2는 약 0.97의 상관 관계를 가진다. 직교 다항식을 사용하여 상관 관계를 줄일 수 있지만, 일반적으로 적합된 회귀 함수 전체를 고려하는 것이 더 유익하다. 그런 다음 점별 또는 동시 신뢰 구간을 사용하여 회귀 함수 추정치의 불확실성을 파악할 수 있다.

대체 접근 방식

요약
관점

다항식 회귀는 두 양 사이의 함수적 관계를 모델링하기 위해 기저 함수를 사용하는 회귀 분석의 한 예이다. 더 구체적으로, 선형 회귀에서 를 다항식 기저 (예: )로 대체한다. 다항식 기저의 단점은 기저 함수가 "비국소적"이라는 것이다. 즉, 주어진 x = x0 값에서 y의 적합된 값은 x0에서 멀리 떨어진 x를 가진 데이터 값에 강하게 의존한다.[8] 현대 통계학에서는 다항식 기저 함수가 스플라인 곡선, 방사형 기저 함수, 웨이블릿과 같은 새로운 기저 함수와 함께 사용된다. 이러한 기저 함수 계열은 많은 유형의 데이터에 대해 더 간결한 적합을 제공한다.

다항식 회귀의 목표는 독립 변수와 종속 변수(엄밀히 말하면 독립 변수와 종속 변수의 조건부 평균) 사이의 비선형 관계를 모델링하는 것이다. 이는 비선형 회귀 관계를 포착하는 것을 목표로 하는 비모수 회귀의 목표와 유사하다. 따라서 평활화와 같은 비모수 회귀 접근 방식은 다항식 회귀의 유용한 대안이 될 수 있다. 이러한 방법 중 일부는 고전적인 다항식 회귀의 국소화된 형태를 사용한다.[9] 전통적인 다항식 회귀의 장점은 다중 회귀의 추론 프레임워크를 사용할 수 있다는 것이다(이는 스플라인과 같은 다른 기저 함수 계열을 사용할 때도 마찬가지이다).

마지막 대안은 다항식 커널이 있는 서포트 벡터 회귀와 같은 커널 방법 모델을 사용하는 것이다.

잔차이분산성이 있는 경우, 이를 설명하기 위해 가중 최소제곱법 추정량을 사용할 수 있다.[10]

Remove ads

같이 보기

  • 곡선 적합
  • 선 회귀
  • 국소 다항식 회귀
  • 다항식 및 유리 함수 모델링
  • 다항식 보간법
  • 반응 표면 방법론
  • 평활 스플라인

내용주

  • 마이크로소프트 엑셀은 XY 산점도에서 데이터 점에 추세선을 맞출 때 다항식 회귀를 사용한다.[11]

각주

외부 링크

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads