상위 질문
타임라인
채팅
관점
선형 최소제곱법
위키미디어 동음이의어 문서 위키백과, 무료 백과사전
Remove ads
선형 최소제곱법(영어: Linear least squares, LLS)은 선형 함수의 최소제곱 근사를 데이터에 적용하는 것이다. 이것은 일반 (가중치 없음), 가중, 일반화 (상관된) 잔차에 대한 변형을 포함하여 선형 회귀와 관련된 통계 문제를 해결하기 위한 일련의 공식이다. 선형 최소제곱법을 위한 수치적 방법에는 정규 방정식 행렬의 역행렬과 직교 분해 방법이 포함된다.
기본 공식
요약
관점
선형 방정식
-
(1)
를 고려해 보자. 여기서 와 는 주어졌고 는 계산할 변수이다. 일 때, 일반적으로 (1)은 해를 갖지 않는다. 예를 들어, 를 만족하는 값은 없다. 왜냐하면 첫 두 행은 을 요구하지만, 세 번째 행은 만족되지 않기 때문이다. 따라서 일 경우, (1)을 정확히 푸는 목표는 일반적으로 어떤 오차를 최소화하는 값을 찾는 것으로 대체된다. 오차를 정의하는 방법은 많지만, 가장 일반적인 방법 중 하나는 로 정의하는 것이다. 이는 최소제곱 문제라고 불리는 최소화 문제를 생성한다.
-
(2)
최소제곱 문제 (1)의 해는 정규 방정식을 풀어 계산된다.[1]
-
(3)
여기서 는 의 전치 행렬을 나타낸다.
위의 예시를 계속하면, 를 사용하면, 이고 정규 방정식을 풀면 이 된다.
Remove ads
선형 회귀에 대한 공식
요약
관점
세 가지 주요 선형 최소제곱 공식은 다음과 같다.
- 정규방정식 (OLS)은 가장 일반적인 추정량이다. OLS 추정량은 일반적으로 실험 및 관측 연구 데이터를 분석하는 데 사용된다. OLS 방법은 제곱 잔차의 합을 최소화하며, 미지의 매개변수 벡터 β의 추정 값에 대한 폐쇄형 표현식으로 이어진다. 여기서 는 i번째 요소가 종속변수의 i번째 관측값인 벡터이고, 는 ij번째 요소가 j번째 독립변수의 i번째 관측값인 디자인 매트릭스이다. 이 추정량은 오차의 분산이 유한하고 회귀 변수와 상관 관계가 없는 경우 편의 없는 및 일치이다.[2] 여기서 는 행렬 의 i번째 행의 전치 행렬이다. 또한 오차의 분산이 유한하고 등분산적이라는 가정하에 효율적이다. 이는 E[εi2|xi]가 i에 의존하지 않는다는 것을 의미한다. 오차가 회귀 변수와 상관 관계가 없다는 조건은 일반적으로 실험에서 만족되지만, 관측 데이터의 경우 관측된 공변량과 반응 변수 모두와 관련된 생략된 공변량 z의 가능성을 배제하기 어렵다. 이러한 공변량의 존재는 일반적으로 회귀 변수와 반응 변수 간의 상관 관계로 이어지며, 따라서 β의 불일치 추정량으로 이어진다. 등분산성의 조건은 실험 데이터 또는 관측 데이터 모두에서 실패할 수 있다. 목표가 추론 또는 예측 모델링이라면, 표본 크기가 크지 않는 한 다중공선성이 존재할 경우 OLS 추정량의 성능은 좋지 않을 수 있다.
- 가중 최소제곱법 (WLS)은 모델의 오차항에 이분산성이 존재할 때 사용된다.
- 일반화 최소제곱법 (GLS)은 OLS 방법의 확장으로, 모델의 오차항 사이에 이분산성 또는 상관 관계 또는 둘 다 존재할 때 β의 효율적인 추정을 허용한다. 단, 이분산성 및 상관 관계의 형태가 데이터와 독립적으로 알려져 있어야 한다. 오차항이 서로 상관 관계가 없는 경우 이분산성을 처리하기 위해 GLS는 OLS 회귀의 제곱 잔차 합에 대한 가중 유사체를 최소화하며, i번째 경우의 가중치는 var(εi)에 반비례한다. 이 GLS의 특수한 경우를 "가중 최소제곱법"이라고 한다. 추정 문제에 대한 GLS 해는 여기서 Ω는 오차의 공분산 행렬이다. GLS는 변환된 데이터에 대해 OLS의 가정이 충족되도록 데이터에 선형 변환을 적용하는 것으로 볼 수 있다. GLS를 적용하려면 오차의 공분산 구조가 곱셈 상수에 따라 알려져 있어야 한다.
대체 공식
다른 공식은 다음과 같다.
- 반복 재가중 최소제곱법 (IRLS)은 모델의 오차항 사이에 이분산성 또는 상관 관계 또는 둘 다 존재하지만, 데이터와 독립적으로 오차의 공분산 구조에 대해 알려진 것이 거의 없을 때 사용된다.[3] 첫 번째 반복에서는 OLS 또는 잠정적 공분산 구조를 가진 GLS가 수행되고, 적합에서 잔차가 얻어진다. 잔차를 기반으로 오차의 공분산 구조에 대한 개선된 추정치를 일반적으로 얻을 수 있다. 그런 다음 이 오차 구조 추정치를 사용하여 가중치를 정의하는 후속 GLS 반복이 수행된다. 이 과정은 수렴할 때까지 반복될 수 있지만, 많은 경우 한 번의 반복만으로도 β의 효율적인 추정치를 얻기에 충분하다.[4][5]
- 도구 변수 회귀 (IV)는 회귀 변수가 오차와 상관 관계가 있을 때 수행할 수 있다. 이 경우 E[ziεi] = 0을 만족하는 보조 도구 변수 zi의 존재가 필요하다. Z가 도구 변수 행렬인 경우, 추정량은 다음과 같이 폐쇄형으로 주어진다. 최적 도구 변수 회귀는 E[εi | zi] = 0인 상황으로 고전적인 IV 회귀를 확장한 것이다.
- 전체 최소제곱법 (TLS)[6]은 OLS보다 공변량과 반응 변수를 기하학적으로 더 대칭적인 방식으로 다루는 선형 회귀 모델의 최소제곱 추정 방식이다. 이는 "변수 오차" 문제를 다루는 한 가지 접근 방식이며, 공변량이 오차 없이 가정될 때도 가끔 사용된다.
- 선형 템플릿 적합 (LTF)[7]은 선형 회귀를 (일반화된) 최소제곱법과 결합하여 최상의 추정량을 결정한다. 선형 템플릿 적합은 반복 최소화 알고리즘에서 흔히 발생하는, 잔차를 분석적으로 표현할 수 없거나 반복적으로 평가하기에 시간이 너무 많이 걸리는 빈번한 문제를 해결한다. 선형 템플릿 적합에서는 잔차를 확률 변수와 기본 실제 모델의 선형 근사에서 추정하며, 실제 모델은 최소 (은 추정량의 수) 개의 고유한 기준값 β에 대해 제공되어야 한다. 그런 다음 실제 분포는 선형 회귀로 근사화되고, 최상의 추정량은 와 같이 폐쇄형으로 얻어진다. 여기서 는 모든 기준값 β에 대한 알려진 또는 이전에 결정된 모델의 값을 포함하는 템플릿 행렬을 나타내고, 는 확률 변수(예: 측정값)이며, 행렬 및 벡터 는 β의 값에서 계산된다. LTF는 로그 정규 분포를 따르는 확률 변수에 대해서도 표현될 수 있다. LTF의 일반화는 이차 템플릿 적합으로, 모델의 2차 회귀를 가정하며, 최소 개의 고유한 값 β에 대한 예측을 필요로 하고, 뉴턴 방법을 사용하여 최상의 추정량을 찾는다.
- 백분율 최소제곱법은 백분율 오차를 줄이는 데 중점을 둔다. 이는 예측 또는 시계열 분석 분야에서 유용하다. 또한 종속 변수가 일정한 분산 없이 넓은 범위를 가질 때도 유용하다. 이러한 경우 OLS를 사용하면 범위의 상단에서 더 큰 잔차가 지배하게 된다. 백분율 또는 상대 오차가 정규 분포될 때, 최소제곱 백분율 회귀는 최대 우도 추정량을 제공한다. 백분율 회귀는 곱셈 오차 모델과 연결되어 있는 반면, OLS는 가산 오차 항을 포함하는 모델과 연결되어 있다.[8]
- 제한된 최소제곱법은 해에 추가 제약 조건이 있는 선형 최소제곱 문제를 나타낸다.
Remove ads
목적 함수
요약
관점
OLS(즉, 가중치 없는 관측치를 가정)에서, 최적 값의 목적 함수는 계수 벡터에 대한 최적 표현을 대입하여 찾는다. 여기서 이고, 가 대칭이고 멱등원이기 때문에 후자의 등식이 성립한다. 이로부터[9] 적절한 가중치 할당 하에서 S의 기댓값은 임을 알 수 있다. 만약 대신 단위 가중치를 가정하면, S의 기댓값은 이며, 여기서 는 각 관측치의 분산이다.
잔차가 정규 분포에 속한다고 가정하면, 가중 제곱 잔차의 합인 목적 함수는 m − n 자유도를 가진 카이제곱 () 분포에 속한다. 다음 표에는 의 몇 가지 예시적인 백분위수 값이 나와 있다.[10]
이 값들은 적합도에 대한 통계적 기준으로 사용될 수 있다. 단위 가중치가 사용될 때, 이 값들은 관측치의 분산으로 나누어야 한다.
WLS의 경우, 위의 일반적인 목적 함수는 잔차의 가중 평균으로 대체된다.
Remove ads
논의
통계학과 수학에서 선형 최소제곱법은 모델에 의해 주어진 이상적인 값이 모델의 알 수 없는 매개변수에 선형적으로 표현되는 경우에 수학적 또는 통계 모델을 자료에 맞추는 접근 방식이다. 결과적으로 적합된 모델은 데이터를 요약하고, 동일한 시스템에서 관측되지 않은 값을 예측하며, 시스템의 기본 메커니즘을 이해하는 데 사용될 수 있다.
수학적으로, 선형 최소제곱법은 선형 방정식 A x = b의 과결정 연립방정식을 근사적으로 푸는 문제이다. 여기서 b는 행렬 A의 열 공간의 원소가 아니다. 근사 해는 b의 A의 열 공간으로의 투영인 b'에 대한 A x = b'의 정확한 해로 실현된다. 가장 좋은 근사는 데이터 값과 해당 모델 값 사이의 제곱 차이의 합을 최소화하는 것이다. 이 접근 방식을 선형 최소제곱법이라고 부르는 이유는 가정된 함수가 추정될 매개변수에 대해 선형이기 때문이다. 선형 최소제곱 문제는 볼록하며, 특별한 퇴화 상황을 제외하고 피팅에 사용된 데이터 포인트 수가 알 수 없는 매개변수 수와 같거나 초과하는 경우 고유한 폐쇄형 해를 갖는다. 반면, 비선형 최소제곱법 문제는 일반적으로 반복법으로 풀어야 하며, 목적 함수에 여러 최적점이 있는 비볼록일 수 있다. 사전 분포를 사용할 수 있는 경우, 베이즈 MMSE 추정량을 사용하여 과소결정 시스템도 해결할 수 있다.
통계학에서 선형 최소제곱 문제는 회귀 분석의 특정 형태로 발생하는 선형 회귀라고 불리는 특히 중요한 유형의 통계 모델에 해당한다. 이러한 모델의 기본 형태 중 하나는 정규방정식 모델이다. 이 문서는 선형 최소제곱 문제의 수학적 측면에 중점을 두며, 통계적 회귀 모델의 공식화 및 해석과 이에 관련된 통계적 추론에 대한 논의는 앞에서 언급한 기사에서 다룬다.(해당 주제의 개요는 회귀 분석 개요를 참조)
Remove ads
속성
요약
관점
실험 오차 가 상관 관계가 없고, 평균이 0이며, 일정한 분산 을 가진다면, 가우스-마르코프 정리는 최소제곱 추정량 가 관측치의 선형 조합인 모든 추정량 중에서 최소 분산을 가진다고 명시한다. 이러한 의미에서 이는 매개변수의 최선의 또는 최적의 추정량이다. 특히 이 속성은 오차의 통계적 분포 함수와 무관하다는 점에 유의해야 한다. 즉, 오차의 분포 함수가 정규 분포일 필요는 없다. 그러나 일부 확률 분포의 경우, 관측치를 고려할 때 최소제곱 해가 가능할 것이라는 보장이 없지만, 그러한 경우에도 이는 선형이면서 편의 없는 최상의 추정량이다.
예를 들어, 어떤 양을 측정한 일련의 측정값의 산술 평균이 그 양의 값에 대한 최소제곱 추정량임을 쉽게 알 수 있다. 가우스-마르코프 정리의 조건이 적용된다면, 산술 평균은 측정 오차의 분포가 무엇이든 간에 최적이다.
그러나 실험 오차가 정규 분포에 속하는 경우, 최소제곱 추정량은 최대 우도 추정량이기도 하다.[11]
이러한 속성들은 가정이 엄격하게 유효하지 않더라도 모든 유형의 데이터 적합에 최소제곱법을 사용하는 기초가 된다.
한계
위에서 설명한 처리 방식의 기본 가정은 독립 변수 x에 오차가 없다는 것이다. 실제로 독립 변수 측정의 오차는 일반적으로 종속 변수의 오차보다 훨씬 작으므로 무시할 수 있다. 그렇지 않은 경우에는 전체 최소제곱법 또는 더 일반적으로 변수 내 오차 모델, 또는 엄격한 최소제곱법을 사용해야 한다. 이는 종속 변수와 독립 변수 모두의 오차를 고려하도록 가중치 방식을 조정한 다음 표준 절차를 따르면 된다.[12][13]
경우에 따라 (가중치 있는) 정규 방정식 행렬 XTX가 불량 조건화된 행렬이다. 다항식을 피팅할 때 정규 방정식 행렬은 방데르몽드 행렬이다. 방데르몽드 행렬은 행렬의 차수가 증가할수록 점점 더 불량 조건화된다. 이러한 경우 최소제곱 추정량은 측정 잡음을 증폭시키고 매우 부정확할 수 있다. 이러한 경우 다양한 정칙화 기법을 적용할 수 있으며, 가장 일반적인 것은 릿지 회귀라고 불린다. 매개변수에 대한 추가 정보, 예를 들어 의 가능한 값 범위가 알려져 있는 경우, 해의 안정성을 높이는 데 다양한 기법을 사용할 수 있다. 예를 들어, 제한된 최소제곱법을 참조하라.
최소제곱 추정량의 또 다른 단점은 잔차의 노름 가 최소화된다는 점이다. 반면, 어떤 경우에는 매개변수 에서 작은 오차를 얻는 데 실제로 관심이 있다. 예를 들어, 의 작은 값과 같이 말이다. 그러나 실제 매개변수 는 필연적으로 알 수 없으므로 이 양은 직접 최소화할 수 없다. 에 대한 사전 확률이 알려져 있다면, 베이즈 추정량을 사용하여 평균 제곱 오차 를 최소화할 수 있다. 최소제곱법은 사전 정보가 알려져 있지 않을 때 자주 적용된다. 여러 매개변수를 동시에 추정하는 경우, 더 나은 추정량을 구성할 수 있는데, 이를 스타인 현상이라고 한다. 예를 들어, 측정 오차가 가우스 분포인 경우, 최소제곱 기법을 지배하거나 능가하는 여러 추정량이 알려져 있다. 이들 중 가장 잘 알려진 것은 제임스-스타인 추정량이다. 이는 회귀 문제에 적용된 더 일반적인 수축 추정량의 예시이다.
Remove ads
응용 분야

- 다항식 적합: 모델은 독립 변수 x의 다항식이다.
- 수치적 평활화 및 미분 — 이것은 다항식 적합의 응용이다.
- 둘 이상의 독립 변수에서 다항식, 표면 적합 포함
- B-스플라인 곡선을 사용한 곡선 적합[12]
- 계량화학, 검량선, 표준 첨가법, 그란 플롯, 혼합물 분석
데이터 피팅에서의 사용
선형 최소제곱법의 주요 응용 분야는 데이터 피팅이다. 독립 변수 (xi는 스칼라 또는 벡터 양일 수 있음)의 m개 값에서 얻은 실험 측정값으로 구성된 m개의 데이터 포인트 가 주어지고, 을 가진 모델 함수 가 주어졌을 때, 모델 함수가 데이터를 "최적으로" 맞추도록 매개변수 를 찾는 것이 목표이다. 선형 최소제곱법에서 선형성은 매개변수 에 대한 선형성을 의미하므로,
여기서 함수 는 변수 x에 대해 비선형일 수 있다.
이상적으로는 모델 함수가 데이터에 정확히 들어맞아야 한다. 즉, 모든 에 대해. 그러나 실제로는 결정해야 할 매개변수보다 데이터 포인트가 더 많으므로 이는 보통 불가능하다. 이때 선택되는 접근 방식은 잔차의 제곱합의 최소 가능한 값을 찾는 것이다. 따라서 함수를 최소화하는 것이다.
와 를 대입한 후, 이 최소화 문제는 다음과 같은 이차 최소화 문제가 된다. 최적의 적합은 정규 방정식을 풀어 찾을 수 있다.
Remove ads
예시

가상의 연구자가 실험을 수행하고 4개의 데이터 포인트: 및 을 얻는다 (오른쪽 다이어그램에 빨간색으로 표시됨). 탐색적 데이터 분석 또는 해당 주제에 대한 사전 지식으로 인해 연구자는 값이 값에 체계적으로 의존한다고 의심한다. 값은 정확하다고 가정되지만, 값은 연구 중인 현상, 측정의 불완전성 등으로 인해 어느 정도 불확실성 또는 "잡음"을 포함한다.
선형 적합
와 사이의 가장 간단한 관계 중 하나는 선 이다. 절편 과 기울기 는 처음에는 알 수 없다. 연구자는 선이 네 개의 데이터 포인트를 통과하도록 과 값을 찾고자 한다. 즉, 연구자는 다음 선형 방정식 시스템을 풀고자 한다. 미지수 2개에 방정식이 4개이므로 이 시스템은 과결정되었다. 정확한 해는 없다. 근사 해를 고려하기 위해, 방정식에 잔차 , , , 를 도입한다. 번째 잔차 는 번째 관측값 와 번째 예측값 사이의 불일치이다. 모든 근사 해 중에서 연구자는 어떤 의미에서 "최적"인 것을 찾고 싶어 한다.
최소제곱법에서는 제곱 잔차의 합 에 초점을 맞춘다. 최적의 해는 과 에 대해 를 최소화하는 것으로 정의된다. 최소값은 의 편미분을 0으로 설정하여 계산할 수 있다. 이 정규 방정식은 미지수 2개에 대한 선형 방정식 시스템을 구성한다. 해는 이고 이며, 따라서 최적 적합선은 이다. 잔차는 및 이다 (오른쪽 다이어그램 참조). 제곱 잔차 합의 최솟값은 다음과 같다.
이 계산은 행렬 표기법으로 다음과 같이 표현될 수 있다. 원래 방정식 시스템은 이며, 여기서 직관적으로, 더 엄밀히 말하면, 가 가역적이면, 행렬 는 의 열 공간으로의 직교 투영을 나타낸다. 따라서 형태의 모든 벡터 중에서 에 가장 가까운 것은 이다. 로 설정하면 가 해라는 것이 명백하다.
포물선 적합

가상의 연구자가 형태의 포물선을 적합하고자 한다고 가정해 보자. 중요한 점은 이 모델이 여전히 미지수 매개변수(이제 뿐임)에 대해 선형이므로, 선형 최소제곱법이 여전히 적용된다는 것이다. 잔차를 포함하는 방정식 시스템은 다음과 같다.
제곱 잔차의 합은 0으로 설정할 편미분은 하나뿐이다. 해는 이고, 적합 모델은 이다.
행렬 표기법에서 잔차가 없는 방정식은 다시 이며, 여기서 이제 위와 동일한 논리에 따라, 해는
이 그림은 세 개의 매개변수 포물선을 피팅하기 위한 확장된 내용을 보여준다. 는 세 개의 열(각각 , , 에 해당)과 각 빨간색 데이터 포인트에 대한 한 행을 가진다.
기타 곡선 및 표면 적합
더 일반적으로, 개의 회귀 변수 와 선형 모델을 가질 수 있다.
Remove ads
같이 보기
각주
추가 자료
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads