상위 질문
타임라인
채팅
관점

피어슨 분포

위키백과, 무료 백과사전

피어슨 분포
Remove ads

피어슨 분포(영어: Pearson distribution)는 연속 확률 분포의 한 계열이다. 이 분포는 칼 피어슨이 1895년에 처음 발표했으며, 이후 1901년과 1916년에 생물통계학에 관한 일련의 논문에서 그가 확장했다.

Thumb
피어슨 시스템 다이어그램. β1 (제곱 비대칭도)과 β2 (전통적인 첨도) 측면에서 유형 I, III, VI, V, IV의 분포를 보여준다.

역사

요약
관점

피어슨 시스템은 원래 눈에 띄게 비대칭인 관측값을 모델링하기 위한 노력으로 고안되었다. 당시에는 관측 데이터의 처음 두 누율 또는 모멘트에 맞게 이론적 모델을 조정하는 방법이 잘 알려져 있었다. 어떤 확률 분포라도 위치-척도족을 형성하기 위해 간단히 확장될 수 있다. 병적인 경우를 제외하고, 위치-척도족은 관측된 평균 (첫 번째 누율)과 분산 (두 번째 누율)에 임의로 잘 맞도록 만들 수 있다. 그러나 비대칭도 (표준화된 세 번째 누율)와 첨도 (표준화된 네 번째 누율)를 자유롭게 조정할 수 있는 확률 분포를 구성하는 방법은 알려져 있지 않았다. 이러한 필요성은 비대칭도를 나타내는 관측 데이터에 알려진 이론적 모델을 맞추려고 할 때 분명해졌다. 피어슨의 예시에는 일반적으로 비대칭인 생존 데이터가 포함된다.

피어슨은 그의 원본 논문(1895, p. 360)에서 정규 분포 (원래는 유형 V로 알려짐) 외에 네 가지 유형의 분포(I부터 IV까지 번호가 매겨짐)를 식별했다. 분류는 분포가 유한 구간, 반직선 또는 전체 실직선에서 지지되는지 여부와 잠재적으로 비대칭인지 또는 필연적으로 대칭인지에 따라 달라졌다. 두 번째 논문(Pearson 1901)은 두 가지 누락 사항을 수정했다. 유형 V 분포(원래는 정규 분포였지만 이제는 역감마 분포)를 재정의하고 유형 VI 분포를 도입했다. 처음 두 논문은 피어슨 시스템의 다섯 가지 주요 유형(I, III, IV, V, VI)을 다룬다. 세 번째 논문에서 피어슨(1916)은 추가적인 특수 사례와 하위 유형(VII부터 XII)을 도입했다.

라인드(Rhind, 1909, pp. 430–432)는 피어슨 시스템의 매개변수 공간을 시각화하는 간단한 방법을 고안했으며, 이는 이후 피어슨(1916, plate 1 and pp. 430ff., 448ff.)에 의해 채택되었다. 피어슨 유형은 일반적으로 β1과 β2라고 불리는 두 가지 양으로 특징지어진다. 첫 번째는 비대칭도의 제곱이다. β1 = γ12이며, 여기서 γ1은 비대칭도 또는 세 번째 표준화된 모멘트이다. 두 번째는 전통적인 첨도 또는 네 번째 표준화된 모멘트이다. β2 = γ2 + 3. (현대적 접근 방식은 모멘트 대신 누율로 첨도 γ2를 정의하므로 정규 분포의 경우 γ2 = 0 및 β2 = 3이다. 여기서는 역사적 선례를 따르고 β2를 사용한다.) 이 다이어그램은 주어진 구체적인 분포(점 (β1, β2)로 식별됨)가 어떤 피어슨 유형에 속하는지 보여준다.

오늘날 통계학자들에게 친숙한 많은 비대칭 또는 비-중첨도 분포들은 1890년대 초반에는 아직 알려지지 않았다. 현재 베타 분포로 알려진 것은 토머스 베이즈가 1763년 역확률에 대한 연구에서 베르누이 분포의 매개변수에 대한 사후 분포로 사용했다. 베타 분포는 피어슨 시스템에 포함되면서 명성을 얻었고 1940년대까지 피어슨 유형 I 분포로 알려졌다.[1] (피어슨 유형 II 분포는 유형 I의 특수 사례이지만 일반적으로 더 이상 따로 언급되지 않는다.) 감마 분포는 피어슨의 작업(Pearson 1893, p. 331; Pearson 1895, pp. 357, 360, 373–376)에서 비롯되었으며, 1930년대와 1940년대에 현대적인 이름을 얻기 전에는 피어슨 유형 III 분포로 알려졌다.[2] 피어슨의 1895년 논문은 스튜던트 t 분포를 특수 사례로 포함하는 유형 IV 분포를 소개했으며, 이는 윌리엄 실리 고셋의 후속 사용보다 몇 년 앞선다. 그의 1901년 논문은 역감마 분포 (유형 V)와 베타 프라임 분포 (유형 VI)를 소개했다.

Remove ads

정의

요약
관점

피어슨 밀도 p는 미분방정식 (Pearson 1895, p. 381 참조)에 대한 유효한 해로 정의된다.

여기서:

오드(Ord)에 따르면,[3] 피어슨은 방정식 (1)의 기본 형태를 두 가지에 기초하여 고안했다. 첫째, 정규 분포의 밀도 함수의 로그 미분 공식(선형 함수를 제공)이고, 둘째, 초기하 분포확률 질량 함수 값에 대한 점화식(선형-2차 함수 구조를 산출).

방정식 (1)에서 매개변수 a는 정지점을 결정하며, 따라서 특정 조건에서 분포의 최빈값을 결정한다.

는 미분방정식에서 직접적으로 유도된다.

변수 계수를 갖는 1차 선형 미분 방정식에 직면했으므로, 그 해는 간단하다.

이 해의 적분은 적분 함수의 특정 특수 사례를 고려할 때 상당히 단순화된다. 피어슨(1895, p. 367)은 이차 함수판별식 (따라서 실 의 수)의 부호에 의해 결정되는 두 가지 주요 사례를 구분했다.

Remove ads

특정 유형의 분포

요약
관점

사례 1, 음의 판별식

피어슨 유형 IV 분포

이차 함수 (2)의 판별식이 음수()이면 실근을 갖지 않는다. 이 경우 다음과 같이 정의한다.

α는 잘 정의된 실수이며 α ≠ 0임을 관찰하라. 가정에 의해 이고 따라서 b2 ≠ 0이기 때문이다. 이러한 대입을 적용하면 이차 함수 (2)는 다음과 같이 변환된다.

α2는 반드시 양수이므로, 이 공식에서 실근이 없다는 것은 명확하다.

이제 미분방정식 (1)의 해를 y의 함수로 표현한다.

피어슨(1895, p. 362)은 이를 "삼각(trigonometrical) 사례"라고 불렀다. 다음 적분 때문이다.

에는 삼각 함수인 arctan 함수가 포함되어 있다. 그러면

마지막으로 다음과 같이 두자.

이러한 대입을 적용하면 다음 매개변수 함수를 얻는다.

이 정규화되지 않은 밀도는 전체 실직선에서 지지된다. 이는 척도 모수 α > 0과 형태 모수 m > 1/2 및 ν에 의존한다. y의 함수로 미분방정식 (1)의 해를 찾기로 선택했을 때 하나의 매개변수가 손실되었다. 따라서 네 번째 매개변수인 위치 모수 λ를 다시 도입한다. 우리는 이렇게 피어슨 유형 IV 분포의 밀도를 유도했다.

정규화 상수에는 복소 감마 함수 (Γ)와 베타 함수 (B)가 포함된다. 여기서 위치 모수 λ는 일반 공식에서 도입된 원래 위치 모수와 다르지만 다음과 같은 관계를 갖는다.

피어슨 유형 VII 분포

Thumb
λ = 0, σ = 1일 때 피어슨 유형 VII 밀도 플롯: γ2 = ∞ (빨간색); γ2 = 4 (파란색); γ2 = 0 (검은색)

피어슨 유형 IV 분포의 형태 매개변수 ν는 그 비대칭도를 제어한다. 그 값을 0으로 고정하면 대칭적인 3매개변수 계열을 얻는다. 이 특수 사례는 피어슨 유형 VII 분포로 알려져 있다 (Pearson 1916, p. 450 참조). 그 밀도는 다음과 같다.

여기서 B는 베타 함수이다.

유형 VII 분포의 대체 매개변수화(및 약간의 특수화)는 다음을 통해 얻어진다.

여기서는 m > 3/2가 필요하다. 이는 일반성을 약간 상실하지만 분포의 분산이 존재하고 σ2와 같음을 보장한다. 이제 매개변수 m은 분포의 첨도만 제어한다. λ와 σ가 일정하게 유지되고 m이 무한대로 접근하면 정규 분포가 특수 사례로 나타난다.

이것은 평균 λ와 표준편차 σ를 갖는 정규 분포의 밀도이다.

m > 5/2를 요구하고

로 두는 것이 편리하다. 이는 또 다른 특수화이며, 분포의 처음 네 모멘트가 존재함을 보장한다. 특히 (λ, σ, γ2)로 매개변수화된 피어슨 유형 VII 분포는 평균 λ, 표준 편차 σ, 비대칭도 0, 그리고 γ2의 양의 초과 첨도를 갖는다.

스튜던트 t 분포

피어슨 유형 VII 분포는 매개변수 ν > 0, μ, σ2를 갖는 비표준화된 스튜던트 t 분포와 다음 대입을 적용하여 동일하다.

제한 m > 1/2이 충족됨을 확인하라.

결과 밀도는 다음과 같다.

이는 스튜던트 t 분포의 밀도로 쉽게 인식된다.

이것은 피어슨 유형 VII 분포가 표준 스튜던트 t 분포와 표준 코시 분포를 포함한다는 것을 의미한다. 특히, 표준 스튜던트 t 분포는 μ = 0이고 σ2 = 1일 때 하위 사례로 발생하며, 다음 대입과 동일하다.

이 제한된 1매개변수 계열의 밀도는 표준 스튜던트 t이다.

사례 2, 음이 아닌 판별식

이차 함수 (2)가 음이 아닌 판별식()을 갖는 경우, 실근 a1과 a2를 갖는다(반드시 다를 필요는 없다).

실근이 있는 경우 이차 함수 (2)는 다음과 같이 쓸 수 있다.

따라서 미분방정식의 해는 다음과 같다.

피어슨(1895, p. 362)은 이를 "로그 사례"라고 불렀다. 다음 적분 때문이다.

에는 이전 사례처럼 arctan 함수가 아닌 로그 함수만 포함된다.

다음 대입을 사용하여

미분방정식 (1)의 다음 해를 얻는다.

이 밀도는 비례 상수까지 알려져 있으므로, 그 상수를 변경하고 밀도를 다음과 같이 쓸 수 있다.

피어슨 유형 I 분포

피어슨 유형 I 분포 (더 일반적인 유한 지지 영역으로 확장된 베타 분포의 일반화)는 이차 방정식 (2)의 근의 부호가 반대일 때, 즉 일 때 발생한다. 이때 해 p는 구간 에서 지지된다. 다음 대입을 적용한다.

여기서 이며, 이는 구간 (0, 1)에서 지지되는 y에 대한 해를 산출한다.

다음과 같이 정의할 수 있다.

상수와 매개변수를 재그룹화하면 다음과 같이 단순화된다.

따라서 베타 분포 를 따르며, 이다. m1, m2 > −1은 p가 적절한 확률 밀도 함수이기 위한 필요충분조건으로 밝혀졌다.

피어슨 유형 II 분포

피어슨 유형 II 분포는 대칭 분포로 제한된 피어슨 유형 I 계열의 특수 사례이다. 유형 I 섹션의 공식을 사용하여, 를 구간 (−a, a)에 적용하면 다음과 같이 쓸 수 있다.

또는 다음과 같이

는 구간 (0, 1)에서 베타 분포를 따른다.

적절한 비례 상수와 함께 PDF는 다음과 같다.

피어슨 유형 III 분포

다음과 같이 정의하면

를 따른다. 피어슨 유형 III 분포는 감마 분포 또는 카이제곱 분포이다.

피어슨 유형 V 분포

새로운 매개변수를 정의하면:

를 따른다. 피어슨 유형 V 분포는 역감마 분포이다.

피어슨 유형 VI 분포

다음과 같이 정의하면

를 따른다. 피어슨 유형 VI 분포는 베타 프라임 분포 또는 F 분포이다.

Remove ads

다른 분포와의 관계

피어슨 계열은 다음을 포함한 여러 분포를 포괄한다.

  • 베르누이 분포 (유형 B, 유형 I의 극한)
  • 베타 분포 (유형 I 및 그 대칭 하위 유형 II)
  • 베타 프라임 분포 (유형 VI)
  • 코시 분포 (유형 VII의 하위 유형)
  • 카이제곱 분포 (유형 III의 하위 유형)
  • 연속균등분포 (유형 R, 유형 II, VIII, IX, XII의 하위 유형)
  • 지수 분포 (유형 X/E, 유형 III의 하위 유형, 유형 IX 및 XI의 극한)
  • 감마 분포 (유형 III, 유형 I 및 VI의 극한)
  • 일반화 파레토 분포 (유형 VIII, IX, X, XI)
  • F 분포 (유형 VI의 하위 유형)
  • 역카이제곱 분포 (유형 V의 하위 유형)
  • 역감마 분포 (유형 V, 유형 IV 및 VI의 극한)
  • 정규 분포 (유형 G, 유형 I/II, III, IV/VII, V, VI의 극한)
  • 파레토 분포 (유형 XI, 유형 VI의 하위 유형)
  • 멱함수 분포 (유형 VIII 및 IX, 유형 I의 하위 유형)
  • 스튜던트 t 분포 (유형 VII, 유형 IV의 대칭 하위 유형)

2025년 기준으로 이름이 없는 유형은 유형 IV (위 참조)와 유형 XII (베타 분포 with )뿐이다.

데이터에 분포를 맞추기 위한 피어슨 시스템 분포에 대한 대안으로는 분위수 매개변수화 분포(QPDs)와 메탈로그 분포가 있다. QPD와 메탈로그는 피어슨 시스템보다 더 큰 형태와 경계 유연성을 제공할 수 있다. QPD는 모멘트를 맞추는 대신 일반적으로 경험적 CDF 또는 선형 최소제곱법을 사용하여 다른 데이터에 맞춰진다.

피어슨의 비대칭도 대 첨도 다이어그램에 대한 현대적 대안의 예로는: (i) https://github.com/SchildCode/PearsonPlot 및 (ii) 통계 응용 프로그램 R의 "Cullen and Frey graph"가 있다.

Remove ads

응용

이러한 모델은 시장 트레이더에게 직관적인 의미를 갖는 방식으로 매개변수화될 수 있다는 점을 고려할 때 금융 시장에서 사용된다. 현재 금리, 주식 등의 변동성의 확률적 특성을 포착하는 여러 모델이 사용되고 있으며, 이 분포 계열은 가장 중요한 것 중 하나로 입증될 수 있다.

미국에서는 로그-감마 분포 (역사적으로 로그-피어슨 III로 명명됨)가 홍수 빈도 분석의 기본 분포이다.[4]

최근에는 피어슨 분포보다 더 유연하고 데이터에 맞추기 쉬운 대안이 개발되었다. 메탈로그 분포를 참조하라.

내용주

출처

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads