상위 질문
타임라인
채팅
관점
분위수 매개변수화 분포
위키백과, 무료 백과사전
Remove ads
분위수 매개변수화 분포(영어: Quantile-parameterized distribution, QPD)는 데이터에 의해 직접 매개변수화되는 확률 분포이다. 이는 비즈니스, 경제, 공학 및 과학 분야에서 흔히 발생하는 광범위한 불확실성을 나타낼 수 있을 만큼 유연하고 사용하기 쉬운 연속 확률 분포에 대한 필요성을 충족하기 위해 만들어졌다. QPD는 데이터에 의해 직접 매개변수화되기 때문에, 데이터로부터 확률 분포 매개변수를 추정하기 위해 일반적으로 비선형 반복 방법이 필요한 시간 소모적인 과정인 매개변수 추정이라는 중간 단계를 피하는 실용적인 장점이 있다. 일부 QPD는 거의 무한한 형태의 유연성과 닫힌 형태의 모멘트를 가지고 있다.
역사
분위수 매개변수화 분포의 개발은 데이터에 쉽게 적합될 수 있는 유연한 연속 확률 분포에 대한 실용적인 필요성에 영감을 받았다. 역사적으로 피어슨[1]과 존슨[2][3] 분포군은 형태의 유연성이 필요할 때 사용되었다. 이는 두 분포군 모두 모든 자료 집합의 처음 네 모멘트(평균, 분산, 왜도 및 첨도)와 일치시킬 수 있기 때문이다. 그러나 많은 경우에 이러한 분포는 데이터에 적합하기 어렵거나 데이터를 적절하게 적합할 만큼 유연하지 않다.
예를 들어, 베타 분포는 모집단의 비율을 모델링하는 데 자주 사용되는 유연한 피어슨 분포이다. 그러나 이 모집단의 특성이 원하는 누적 분포 함수(CDF)가 특정 CDF 지점을 통과해야 하는 경우, 이 요구를 충족하는 베타 분포가 없을 수 있다. 베타 분포는 두 개의 형상 매개변수만 가지고 있기 때문에 일반적으로 세 개의 지정된 CDF 지점조차 일치시킬 수 없다. 또한, 이러한 데이터에 가장 잘 맞는 베타 매개변수는 비선형 반복 방법으로만 찾을 수 있다.
결정 분석 실무자들은 세 개 이상의 CDF 지점(예: 전문가 유도 과정의 결과로 그러한 지점이 지정되었기 때문에)에 의해 쉽게 매개변수화되는 분포를 필요로 했고, 원래 이 목적으로 분위수 매개변수화 분포를 발명했다. 킬린(Keelin)과 파울리(Powley)(2011)[4]는 원래의 정의를 제공했다. 이후 킬린(2016)[5]은 거의 무한한 형태의 유연성, 간단한 방정식 및 닫힌 형태의 모멘트를 가진 분위수 매개변수화 분포군인 메탈로그 분포를 개발했다.
Remove ads
정의
요약
관점
킬린과 파울리[4]는 분위수 매개변수화 분포를 분위수 함수(역 CDF)가 다음 형태로 작성될 수 있는 분포로 정의한다.
여기서
이며, 함수 는 연속적으로 미분 가능하고 선형적으로 독립적인 기저 함수이다. 여기서 본질적으로 과 은 분위수 함수 를 가진 확률 변수의 하한 및 상한(존재하는 경우)이다. 이러한 분포를 분위수 매개변수화 분포라고 부르는 이유는 주어진 분위수 쌍 (여기서 )과 개의 기저 함수 집합에 대해 계수 가 선형 방정식 집합을 풀어 결정될 수 있기 때문이다.[4] 만약 기저 함수보다 더 많은 분위수 쌍을 사용하고 싶다면, 계수 는 주어진 분위수 와 사이의 제곱 오차 합을 최소화하도록 선택할 수 있다. 킬린과 파울리[4]는 정규 분포의 분위수 함수 의 일반화인 특정 기저 함수 선택에 대해 이 개념을 설명하며, 여기서 평균 와 표준 편차 는 누적 확률 의 선형 함수이다.
그 결과는 네 개의 분위수/확률 쌍에 정확히 적합될 수 있거나, 선형 최소 제곱을 통해 임의의 수의 쌍에 적합될 수 있는 네 개의 매개변수 분포이다. 킬린과 파울리[4]는 이를 단순 Q-정규 분포라고 부른다. 아래 그림에는 일부 왜곡된 및 대칭 단순 Q-정규 PDF가 나와 있다.


Remove ads
속성
요약
관점
킬린과 파울리의 정의를 충족하는 QPD는 다음과 같은 속성을 가진다.
확률 밀도 함수
를 에 대해 미분하면 가 된다. 이 양의 역수 는 확률 밀도 함수(PDF)이다.
여기서 이다. 이 PDF는 가 아닌 누적 확률 의 함수로 표현된다는 점에 유의해야 한다. 그림에서와 같이 플로팅하려면 을 매개변수적으로 변화시킨다. 가로축에 를 플로팅하고 세로축에 를 플로팅한다.
실행 가능성
형태의 함수는 모든 에 대해 인 경우에만 실행 가능한 확률 분포이다.[4] 이는 계수 집합 에 대한 실행 가능성 제약을 의미한다.
- for all
실제 적용에서는 일반적으로 실행 가능성을 가정하기보다는 확인해야 한다.
볼록성
QPD의 실행 가능한 계수 집합 for all 는 볼록하다. 볼록 최적화는 볼록 실행 가능 집합을 필요로 하므로, 이 속성은 QPD를 포함하는 최적화 응용 프로그램을 단순화한다.
데이터에 대한 적합
계수 는 선형 최소 제곱을 통해 데이터로부터 결정될 수 있다. QPD의 CDF를 특성화하기 위한 개의 데이터 포인트 와 요소가 로 구성된 행렬 가 주어졌을 때, 가 역행렬을 가진다면, 계수 열 벡터 는 로 결정될 수 있으며, 여기서 이고 열 벡터 이다. 만약 이면, 이 방정식은 로 축소되며, 그 결과 CDF는 모든 데이터 포인트를 정확히 통과한다. 선형 프로그램으로 구현된 다른 방법은 실행 가능성 제약 조건에 따라 CDF와 데이터 간의 절대 거리 합을 최소화하여 계수를 결정한다.[6]
형태 유연성
인 개의 항을 가진 QPD는 개의 형태 매개변수를 가진다. 따라서 QPD는 최대 두 개의 형태 매개변수를 가진 피어슨 분포보다 훨씬 더 유연할 수 있다. 예를 들어, 30개의 전통적인 원본 분포(정규, 스튜던트-t, 로그정규, 감마, 베타 및 극단값 포함)에서 105개의 CDF 지점으로 매개변수화된 10항 메탈로그 분포는 각각의 원본 분포를 0.001 이하의 K-S 거리 내에서 근사화하는 것으로 나타났다.[7]
변환
QPD 변환은 분위수 함수의 일반적인 속성에 의해 결정된다. 즉, 모든 분위수 함수 와 증가 함수 에 대해 는 분위수 함수이다.[8] 예를 들어, 정규 분포의 분위수 함수 는 킬린과 파울리의 정의에 따른 QPD이다. 자연로그 는 증가 함수이므로 는 하한 을 가진 로그정규 분포의 분위수 함수이다. 중요하게도, 이 변환은 무한 QPD를 반-경계 QPD로 변환한다. 유사하게, 이 로그 변환을 무한 메탈로그 분포[9]에 적용하면 반-경계 (로그) 메탈로그 분포[10]가 생성된다. 마찬가지로, 로짓 변환 을 적용하면 하한 과 상한 를 가진 경계 (로짓) 메탈로그 분포[10]가 생성된다. 또한, 가 킬린과 파울리의 정의를 충족하는 모든 QPD인 로 분포된다고 가정하면, 변환된 변수는 실행 가능성, 볼록성 및 데이터 적합의 위 속성을 유지한다. 이러한 변환된 QPD는 개의 형태 매개변수를 가진 기본 보다 더 큰 형태 유연성을 가진다. 로그 변환은 개의 형태 매개변수를 가지며, 로짓 변환은 개의 형태 매개변수를 가진다. 더욱이, 이러한 변환된 QPD는 기본 변환되지 않은 QPD와 동일한 실행 가능한 계수 집합을 공유한다.[11]
모멘트
QPD의 모멘트는 다음과 같다.[4]
이러한 모멘트가 닫힌 형태로 존재하는지 여부는 QPD 기저 함수 의 선택에 따라 달라진다. 무한 메탈로그 분포와 다항식 QPD는 계수 의 함수로 닫힌 형태의 모멘트가 존재하는 QPD의 예이다.
시뮬레이션
분위수 함수 가 닫힌 형태로 표현되므로, 킬린과 파울리 QPD는 몬테카를로 시뮬레이션을 용이하게 한다. 균일하게 분포된 의 무작위 샘플을 대입하면 의 무작위 샘플이 닫힌 형태로 생성되어 로 표현된 CDF를 역전시킬 필요가 없어진다.
Remove ads
관련 분포
요약
관점
다음 확률 분포는 킬린과 파울리의 정의에 따른 QPD이다.
- 정규 분포의 분위수 함수, .
- 굼벨 분포의 분위수 함수, .
- 코시 분포의 분위수 함수, .
- 로지스틱 분포의 분위수 함수, .
- 무한 메탈로그 분포, 이는 로지스틱 분위수 함수의 및 매개변수의 멱급수 전개이다.
- 반-경계 및 경계 메탈로그 분포, 이는 각각 무한 메탈로그 분포의 로그 및 로짓 변환이다.
- SPT (대칭-백분위수 삼중항) 무한, 반-경계 및 경계 메탈로그 분포, 이는 세 개의 CDF 지점과 선택적 상한 및 하한으로 매개변수화된다.
- 단순 Q-정규 분포[12]
- 메타분포, 메타-정규 포함[13]
- 누적 확률 의 다항식 함수로 표현된 분위수 함수, 체비쇼프 다항식 함수 포함.
SPT 메탈로그 분포와 마찬가지로, 존슨 분위수 매개변수화 분포[14][15](JQPD)는 세 개의 분위수로 매개변수화된다. JQPD는 킬린과 파울리의 QPD 정의를 충족하지 않지만, 자체 속성을 가진다. JQPD는 확률 규칙과 일치하는 모든 SPT 매개변수 집합에 대해 실행 가능하다.
Remove ads
응용
QPD의 원래 응용은 전문가가 평가한 분위수(예: 10번째, 50번째, 90번째 분위수)를 부드러운 연속 확률 분포로 편리하게 변환하려는 결정 분석가들에 의해 이루어졌다. QPD는 시뮬레이션의 출력 데이터를 적합시켜 이러한 출력을 (CDF 및 PDF 모두) 닫힌 형태의 연속 분포로 표현하는 데도 사용되었다.[16] 이러한 방식으로 사용될 때, 이들은 일반적으로 히스토그램보다 더 안정적이고 부드럽다. 유사하게, QPD는 전통적인 분포보다 적은 형태 제약을 부과할 수 있으므로, 광범위한 경험적 데이터를 적합시켜 이러한 데이터 집합을 연속 분포로 표현하는 데 사용되었다 (예: 데이터에 존재할 수 있는 양봉성을 간단한 방식으로 반영).[17] 분위수 매개변수화는 CDF가 그렇지 않으면 닫힌 형태 표현을 가지지 않는 알려진 분포에 대한 닫힌 형태 QPD 표현을 가능하게 한다. 킬린 외(2019)[18]는 이를 독립 항등 분포 로그정규 분포의 합에 적용했으며, 합의 분위수는 많은 수의 시뮬레이션을 통해 결정될 수 있다. 그러한 아홉 개의 분위수는 이러한 아홉 개의 분위수를 정확히 통과하는 반-경계 메탈로그 분포를 매개변수화하는 데 사용된다. QPD는 또한 소행성 충돌 위험 평가,[19] 사이버 보안,[6][20] 사후 관측 생산과 비교하여 유전 생산 예측의 편향,[21] 및 여러 전문가의 확률적 견해를 결합하여 캐나다 인구 예측에도 적용되었다.[22] 메탈로그 분포 및 킬린(2016)[5]을 참조하여 메탈로그 분포의 추가 응용을 확인할 수 있다.
Remove ads
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads