상위 질문
타임라인
채팅
관점

평균 절대 편차

위키백과, 무료 백과사전

Remove ads

통계학에서 평균 절대 편차(average absolute deviation 또는 mean absolute deviation, AAD, MAD) 또는 평균 편차(mean deviation) 또는 절대 편차(absolute deviation)는 산포도의 한 종류로, 편차절댓값평균이다. 각 측정치에서 전체 평균을 뺀 값인 편차의 절댓값의 산술평균을 말한다. 매우 크거나 작은 어느 하나의 값인 이상치로 인한 문제점을 보완할 수 있는 방법으로 사용되고 있다. 평균편차에는 모집단 평균편차와 표본 평균편차 두 가지 종류가 있다.[1]

중심경향치(central tendency)를 평균(Mean) 대신 중앙값(Median)을 쓸 경우 중앙값 절대 편차(median absolute deviation, MAD)이라고 하며, 최빈값(Mode)을 사용할 경우 최빈값 절대 편차(mode absolute deviation, MAD)라고 한다.

유사한 용어로 회귀 분석에 쓰는 최소 절대 편차(least absolute deviation)가 있다.

Remove ads

산포도 측정

몇 가지 산포도 측정값은 절대 편차의 관점에서 정의된다. '평균 절대 편차'라는 용어는 산포도 측정값을 고유하게 식별하지 않는데, 이는 절대 편차를 측정하는 데 사용될 수 있는 몇 가지 측정값이 있고, 중심경향치를 측정하는 데 사용될 수 있는 몇 가지 측정값이 있기 때문이다. 따라서 절대 편차를 고유하게 식별하려면 편차 측정값과 중심경향치 측정값 모두를 지정해야 한다. 통계 문헌에서는 아직 표준 표기법을 채택하지 않았는데, 평균 주변의 평균 절대 편차와 중앙값 주변의 중앙값 절대 편차 모두 문헌에서 'MAD'라는 약어로 표기되어 혼동을 야기할 수 있다. 이들은 일반적으로 서로 상당히 다른 값을 가지기 때문이다.

중심점 주변의 평균 절대 편차

요약
관점

집합 X={x1, x2, …, xn}의 평균 절대 편차는 다음과 같다:

중심경향치 측정값 의 선택은 평균 편차 값에 상당한 영향을 미친다. 예를 들어, 데이터 세트 {2, 2, 3, 4, 14}의 경우:

자세한 정보 중심경향치 측정값 ...

평균 주변의 평균 절대 편차

평균 절대 편차(MAD)는 '평균 편차' 또는 때로는 '평균 절대 편차'라고도 불리며, 데이터 평균 주변의 데이터 절대 편차의 평균이다. 즉, 평균으로부터의 평균 (절대) 거리이다. '평균 절대 편차'는 이 용법 또는 지정된 중심점에 대한 일반적인 형태(위 참조)를 의미할 수 있다.

MAD는 실생활과 더 잘 일치하기 때문에 표준 편차 대신 사용하도록 제안되었다.[2] MAD는 표준 편차보다 변동성을 측정하는 더 간단한 방법이기 때문에 학교 교육에 유용할 수 있다.[3][4]

이 방법의 예측 정확도는 예측의 평균 제곱 오차인 평균 제곱 오차(MSE) 방법과 매우 밀접하게 관련되어 있다. 이 두 방법은 매우 밀접하게 관련되어 있지만, MAD는 계산하기 쉽고(제곱할 필요가 없음)[5] 이해하기 쉽기 때문에 더 일반적으로 사용된다.[6]

표준 편차와의 관계

정규 분포의 경우 평균으로부터의 평균 절대 편차와 표준 편차의 비율은 이다. 따라서 X가 기대값 0을 갖는 정규 분포 확률 변수이면, Geary (1935)를 참조하면:[7] 다시 말해, 정규 분포의 경우 평균 절대 편차는 표준 편차의 약 0.8배이다. 그러나, 주어진 가우스 표본 n에 대한 평균 절대 편차 / 표준 편차 비율의 표본 내 측정값은 다음 경계값을 갖는다: , 작은 n에 대한 편향이 있다.[8]

평균으로부터의 평균 절대 편차는 표준 편차보다 작거나 같다. 이를 증명하는 한 가지 방법은 옌센 부등식에 의존한다.

증명

옌센 부등식은 이며, 여기서 는 볼록 함수이다. 이는 에 대해 다음을 의미한다.

양쪽이 양수이고, 제곱근은 양수 영역에서 단조 증가 함수이므로:

이 주장의 일반적인 경우에 대해서는 횔더 부등식을 참조하라.

중앙값 주변의 평균 절대 편차

중앙값은 평균 편차가 최소화되는 점이다. MAD 중앙값은 중앙값 주변의 확률 변수 척도를 직접적으로 측정한다.

이는 라플라스 분포의 척도 매개변수 최대 우도 추정량이다.

중앙값은 평균 절대 거리를 최소화하므로 이다. 중앙값으로부터의 평균 절대 편차는 평균으로부터의 평균 절대 편차보다 작거나 같다. 사실, 중앙값으로부터의 평균 절대 편차는 다른 어떤 고정된 숫자로부터의 평균 절대 편차보다 항상 작거나 같다.

일반적인 산포 함수를 사용하여 Habib (2011)은 중앙값에 대한 MAD를 다음과 같이 정의했다. 여기서 지시 함수는 다음과 같다.

이 표현은 MAD 중앙값 상관 계수를 얻는 것을 가능하게 한다.

Remove ads

중심점 주변의 중앙값 절대 편차

원칙적으로 평균이나 다른 중심점을 중앙값 절대 편차의 중심점으로 취할 수 있지만, 대부분의 경우 중앙값이 사용된다.

중앙값 주변의 중앙값 절대 편차

중앙값 절대 편차(MAD)는 중앙값으로부터의 절대 편차의 중앙값이다. 이는 강건한 척도 추정량이다.

예시 {2, 2, 3, 4, 14}의 경우: 중앙값은 3이므로 중앙값으로부터의 절대 편차는 {1, 1, 0, 1, 11} (재정렬하면 {0, 1, 1, 1, 11})이며 중앙값은 1이다. 이 경우 특이값 14의 영향을 받지 않으므로 중앙값 절대 편차는 1이다.

대칭 분포의 경우 중앙값 절대 편차는 사분위수 범위의 절반과 같다.

최대 절대 편차

임의의 점 주변의 최대 절대 편차는 해당 점에서 표본의 절대 편차 중 최댓값이다. 엄밀히 말하면 중심 경향 측정은 아니지만, 최대 절대 편차는 위에서 언급한 평균 절대 편차 공식을 로 사용하여 찾을 수 있으며, 여기서 표본 최댓값이다.

최소화

절대 편차에서 파생된 산포도 측정값은 다양한 중심 경향 측정값을 산포도를 최소화하는 것으로 특징짓는다: 중앙값은 절대 편차와 가장 관련이 깊은 중심 경향 측정값이다. 일부 위치 매개변수는 다음과 같이 비교할 수 있다:

  • L2 노름 통계량: 평균은 평균 제곱 오차를 최소화한다.
  • L1 노름 통계량: 중앙값은 평균 절대 편차를 최소화한다.
  • L 노름 통계량: 미드레인지는 최대 절대 편차를 최소화한다.
  • 잘라낸 L 노름 통계량: 예를 들어, 전체 분포의 중앙값 절대 편차를 최소화하는 중앙선(첫 번째 및 세 번째 사분위수의 평균)은 상위 및 하위 25%가 잘려 나간 후 분포의 최대 절대 편차도 최소화한다.

추정

Thumb

표본의 평균 절대 편차는 모집단의 평균 절대 편차에 대한 편의 추정량이다. 절대 편차가 불편 추정량이 되려면 모든 표본 절대 편차의 기대값(평균)이 모집단 절대 편차와 같아야 한다. 그러나 그렇지 않다. 모집단 1,2,3의 경우 중앙값에 대한 모집단 절대 편차와 평균에 대한 모집단 절대 편차는 모두 2/3이다. 모집단에서 추출할 수 있는 크기 3의 평균에 대한 모든 표본 절대 편차의 평균은 44/81인 반면, 중앙값에 대한 모든 표본 절대 편차의 평균은 4/9이다. 따라서 절대 편차는 편의 추정량이다.

그러나 이 주장은 평균 불편성의 개념에 기반한다. 각 위치 측정에는 자체적인 불편성 형태가 있다( 편의 추정량 항목 참조). 여기에서 관련 불편성 형태는 중앙값 불편성이다.

Thumb

같이 보기

Thumb

각주

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads