상위 질문
타임라인
채팅
관점
분할표
위키백과, 무료 백과사전
Remove ads
통계학에서 분할표(分割表, contingency table) 또는 교차표(cross tabulation 또는 crosstab)는 변수의 다변량 도수 분포를 표시하는 행렬 형식의 표이다. 분할표는 설문 조사 연구, 비즈니스 인텔리전스, 공학 및 과학 연구에 널리 사용된다. 분할표는 두 변수 간의 상호 관계에 대한 기본적인 그림을 제공하고 그들 사이의 상호작용을 찾는 데 도움이 될 수 있다. 분할표라는 용어는 1904년에 출판된 드레이퍼스 컴퍼니 연구 회고록 생체 측정 시리즈 I의 일부인 "우발성 이론 및 연관성 및 정규 상관 관계와의 관계에 대해"에서 칼 피어슨에 의해 처음 사용되었다.[1]
다변량 통계학의 중요한 문제 중 하나는 고차원 분할표에 포함된 변수들의 (직접적인) 의존성 구조를 찾는 것이다. 일부 조건부 독립성이 밝혀지면 데이터 저장도 더 스마트한 방식으로 수행할 수 있다(Lauritzen (2002) 참조). 이를 위해 확률 분포에서만 정보를 얻는 정보 이론 개념을 사용할 수 있으며, 이는 상대 빈도를 통해 분할표에서 쉽게 표현할 수 있다.
피벗 테이블은 스프레드시트 소프트웨어를 사용하여 분할표를 만드는 방법이다.
Remove ads
예시
성별(남성 또는 여성)과 손쓰임(오른손잡이 또는 왼손잡이)이라는 두 가지 변수가 있다고 가정해 보자. 또한, 손쓰임의 성별 차이를 연구하는 연구의 일환으로 매우 큰 모집단에서 100명의 개인이 무작위로 추출되었다고 가정해 보자. 분할표는 남성 오른손잡이 및 왼손잡이, 여성 오른손잡이 및 왼손잡이 개인의 수를 표시하기 위해 생성될 수 있다. 이러한 분할표는 아래에 표시되어 있다.
남성, 여성, 오른손잡이 및 왼손잡이 개인의 수는 주변 합계라고 불린다. 총합(분할표에 나타난 총 개인 수)은 오른쪽 아래 모서리의 숫자이다.
이 표를 통해 사용자는 오른손잡이 남성의 비율이 오른손잡이 여성의 비율과 거의 같지만 비율이 동일하지는 않다는 것을 한눈에 알 수 있다. 연관성의 강도는 승산비로 측정할 수 있으며, 모집단 승산비는 표본 승산비로 추정할 수 있다. 두 비율 간의 차이의 통계적 유의성은 피어슨 카이제곱 검정, G-검정, 피셔의 정확 검정, 보슐루 검정, 바너드 검정을 포함한 다양한 통계 검정을 사용하여 평가할 수 있다. 단, 표의 항목이 결론을 도출하려는 모집단에서 무작위로 추출된 개인을 나타내는 경우에 한한다. 다른 열의 개인 비율이 행(또는 그 반대) 간에 유의하게 다른 경우, 두 변수 사이에 우발성이 있다고 말한다. 즉, 두 변수는 독립적이지 않다. 우발성이 없는 경우, 두 변수는 독립적이라고 말한다.
위의 예는 가장 간단한 종류의 분할표로, 각 변수가 두 가지 수준만 갖는 표이다. 이를 2 × 2 분할표라고 한다. 원칙적으로 임의의 수의 행과 열을 사용할 수 있다. 변수가 두 개 이상일 수도 있지만, 고차 분할표는 시각적으로 표현하기 어렵다. 순서 변수 또는 순서 변수와 범주형 변수 간의 관계도 분할표로 나타낼 수 있지만, 이러한 관행은 드물다. 두 순서 변수 간의 관계에 대한 분할표 사용에 대한 자세한 내용은 굿맨과 크루스칼의 감마를 참조한다.
Remove ads
분할표의 표준 내용
- 여러 열 (역사적으로, 인쇄된 페이지의 모든 여백을 사용하도록 설계되었다). 각 행이 모집단의 특정 하위 그룹(이 경우 남성 또는 여성)을 참조하는 경우, 열은 때때로 배너 포인트 또는 컷(그리고 행은 때때로 스텁)이라고 불린다.
- 유의성 검정. 일반적으로 열 간의 차이를 검정하고 문자를 사용하여 결과를 표시하는 열 비교 또는 테이블에서 어떤 방식으로든 눈에 띄는 셀을 식별하기 위해 색상이나 화살표를 사용하는 셀 비교가 있다.
- 하위 합계인 순값(Nets 또는 netts).
- 다음 중 하나 이상: 백분율, 행 백분율, 열 백분율, 지수 또는 평균.
- 가중치 없는 표본 크기 (개수).
연관성 측정
요약
관점
두 변수 간의 연관성 정도는 여러 계수에 의해 평가될 수 있다. 다음 하위 섹션에서는 그중 몇 가지를 설명한다. 사용에 대한 더 완전한 논의는 각 하위 섹션 제목 아래에 링크된 주요 기사를 참조한다.
승산비
2 × 2 분할표에 대한 가장 간단한 연관성 측정은 승산비이다. 두 사건 A와 B가 주어졌을 때, 승산비는 B가 있을 때 A의 승산과 B가 없을 때 A의 승산의 비율로 정의되거나, (대칭성 때문에) A가 있을 때 B의 승산과 A가 없을 때 B의 승산의 비율로 정의된다. 두 사건은 승산비가 1일 경우에만 독립적이다. 승산비가 1보다 크면 사건은 양의 연관성이 있고, 승산비가 1보다 작으면 사건은 음의 연관성이 있다.
승산비는 확률의 관점에서 간단한 표현을 갖는다. 결합 확률 분포가 주어졌을 때:
승산비는 다음과 같다.
파이 계수
2 × 2 분할표의 경우에만 적용 가능한 간단한 측정은 다음으로 정의되는 파이 계수 (φ)이다.
여기서 χ2는 피어슨 카이제곱 검정에서와 같이 계산되고, N은 관측치의 총합이다. φ는 0(변수 간에 연관성이 없음)에서 1 또는 -1(완전한 연관성 또는 완전한 역 연관성)까지 다양하며, 2 × 2 표로 표현된 빈도 데이터에 기반할 때만 그렇다. 이때 그 부호는 표의 주대각선 요소의 곱에서 대각선 외 요소의 곱을 뺀 값의 부호와 같다. φ는 모든 주변 비율이 0.5와 같을 때(그리고 두 대각선 셀이 비어 있을 때)만 최소값 -1.0 또는 최대값 +1.0을 갖는다.[2]
크라메르 V와 우발성 계수 C
두 가지 대안은 우발성 계수 C와 크라메르 V이다.
C 및 V 계수에 대한 공식은 다음과 같다.
- 및
k는 행 또는 열의 수 중 작은 값이다.
C는 최대값 1.0에 도달하지 못한다는 단점이 있는데, 특히 2 × 2 표에서 도달할 수 있는 최대값은 0.707이다. 더 많은 범주를 가진 분할표에서는 1.0에 더 가까운 값에 도달할 수 있다. 예를 들어, 4 × 4 표에서는 최대 0.870에 도달할 수 있다. 따라서 범주의 수가 다른 경우 다른 표의 연관성을 비교하는 데 사용해서는 안 된다.[3]
C는 C를 로 나누어 어떤 수의 행과 열을 가진 표에서 완전한 연관성이 있을 때 최대값 1.0에 도달하도록 조정할 수 있으며, 여기서 k는 표가 정사각형일 때 행 또는 열의 수이고, 로 나누면 r은 행의 수이고 c는 열의 수이다.[4]
사분위 상관 계수
또 다른 선택은 사분위 상관 계수이지만, 이는 2 × 2 표에만 적용 가능하다. 다분위 상관은 사분위 상관을 두 개 이상의 수준을 가진 변수를 포함하는 표로 확장한 것이다.
사분위 상관은 각 이분 측정의 기본 변수가 정규 분포를 따른다고 가정한다.[5] 이 계수는 "눈금이 있는 측정이 두 가지 범주로 축소되었을 때 [피어슨 곱 모멘트] 상관의 편리한 측정값"을 제공한다.[6]
사분위 상관 계수는 각 변수의 두 수준을 나타내기 위해 예를 들어 0.0과 1.0 값을 할당하여 계산된 피어슨 상관 계수와 혼동해서는 안 된다(이는 수학적으로 φ 계수와 동일하다).
람다 계수
람다 계수는 변수가 명목 수준에서 측정될 때 교차표의 연관성 강도를 측정하는 척도이다. 값은 0.0(연관성 없음)에서 1.0(최대 가능한 연관성)까지이다.
비대칭 람다는 종속 변수를 예측하는 데 있어 백분율 개선을 측정한다. 대칭 람다는 양방향으로 예측이 수행될 때의 백분율 개선을 측정한다.
불확실성 계수
불확실성 계수 또는 타일의 U는 명목 수준 변수에 대한 또 다른 측정값이다. 그 값은 -1.0(100% 음의 연관성 또는 완벽한 반전)에서 +1.0(100% 양의 연관성 또는 완벽한 일치)까지이다. 0.0의 값은 연관성이 없음을 나타낸다.
또한 불확실성 계수는 조건부이며 비대칭적인 연관성 측정으로, 다음과 같이 표현할 수 있다.
- .
이 비대칭적 특성은 대칭적 연관성 측정에서는 명확하지 않은 통찰력을 제공할 수 있다.[7]
기타
감마, 타우-b 및 타우-c는 두 변수의 범주 또는 수준이 자연적인 순서를 가질 때 사용된다.
- 감마 검정: 표 크기나 동점에 대한 조정이 없다.
- 켄달의 타우: 동점에 대한 조정.
- 타우-b: 정사각형 표에 사용된다.
- 타우-c: 직사각형 표에 사용된다.
Remove ads
같이 보기
각주
추가 자료
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads