다항분포
1. 개요
1. 개요
다항분포는 확률론과 통계학에서 사용되는 이산 확률 분포의 하나이다. 이 분포는 각 시행에서 발생 가능한 결과가 두 개를 초과하는 경우, 즉 k개의 범주를 가진 실험을 여러 번 독립적으로 반복할 때 각 범주별로 관측된 횟수의 결합 확률 분포를 설명한다. 따라서 이항분포를 두 개 이상의 범주로 일반화한 형태라고 볼 수 있다.
다항분포의 전형적인 예로는 주사위를 여러 번 던져 각 면이 나온 횟수를 세거나, 선거에서 여러 후보에 대한 유권자의 선택을 모델링하는 경우를 들 수 있다. 이 분포는 기계 학습의 나이브 베이즈 분류기나 자연어 처리의 언어 모델과 같은 다양한 분야에서 범주형 데이터를 다루는 기본 도구로 널리 활용된다.
다항분포의 모수는 시행 횟수 n과 각 범주의 발생 확률을 나타내는 벡터 p이다. 이 분포에서 각 범주별 발생 횟수의 기댓값과 분산, 그리고 서로 다른 범주 간의 공분산은 확률 벡터 p로부터 직접 계산할 수 있다. 다항분포의 이러한 특성은 다변량 분석의 기초를 이루는 중요한 개념이다.
2. 정의
2. 정의
다항분포는 이산 확률 분포의 일종으로, 확률론과 통계학에서 널리 사용된다. 이 분포는 각 시행에서 발생 가능한 결과가 두 가지 이상인 다중 시행 실험을 모델링한다. 구체적으로, 서로 독립적이며 각 시행에서 k개의 가능한 결과(예: A, B, C 카테고리)가 있고, 각 결과가 발생할 확률이 시행마다 동일하게 고정되어 있을 때, n번의 시행 후 각 결과가 관측된 횟수의 결합 확률 분포를 나타낸다.
이러한 정의는 이항분포를 일반화한 것이다. 이항분포는 '성공'과 '실패'라는 두 가지 결과만을 고려하는 반면, 다항분포는 세 가지 이상의 범주형 결과를 다룰 수 있다. 예를 들어, 주사위를 여러 번 던져 각 면이 나온 횟수를 세거나, 설문 조사에서 여러 후보에 대한 지지율을 분석할 때 적용될 수 있다.
다항분포의 핵심 매개변수는 총 시행 횟수 n과, 각 범주별 발생 확률을 성분으로 하는 확률 벡터 p = (p1, p2, ..., pk)이다. 여기서 모든 확률의 합은 1이어야 한다. 이 분포는 다변량 분석의 기초가 되는 중요한 도구이며, 카이제곱 검정이나 로지스틱 회귀 분석 같은 범주형 데이터 분석 방법의 이론적 토대를 제공한다.
3. 확률 질량 함수
3. 확률 질량 함수
다항분포의 확률 질량 함수는 각 범주별 발생 횟수에 대한 확률을 제공한다. 시행 횟수 n, 범주 수 k, 그리고 각 범주 i의 발생 확률 p_i가 주어졌을 때, 각 범주에서 관측된 횟수 x_i의 벡터 (x_1, x_2, ..., x_k)에 대한 확률은 다음 공식으로 계산된다.
P(X_1 = x_1, X_2 = x_2, ..., X_k = x_k) = ( n! / (x_1! x_2! ... x_k!) ) * p_1^{x_1} * p_2^{x_2} * ... * p_k^{x_k}
여기서 모든 x_i는 0 이상의 정수이며, 그 합은 총 시행 횟수 n과 같다 (x_1 + x_2 + ... + x_k = n). 또한, 모든 확률 p_i의 합은 1이다 (p_1 + p_2 + ... + p_k = 1).
이 공식은 두 부분으로 구성된다. 첫 번째 부분인 다항 계수 ( n! / (x_1! x_2! ... x_k!) )는 총 n번의 시행에서 각 범주가 특정 횟수만큼 발생하는 서로 다른 순서의 가짓수를 나타낸다. 두 번째 부분인 p_1^{x_1} * p_2^{x_2} * ... * p_k^{x_k}는 각 범주가 정해진 횟수만큼 발생하는 하나의 특정 순서에 대한 확률을 의미한다. 이 두 요소를 곱함으로써 특정 결합 확률 분포를 얻을 수 있다.
이 확률 질량 함수는 이항분포를 두 개 이상의 범주로 일반화한 형태이다. 실제로 k=2인 경우, 즉 범주가 성공과 실패 두 가지뿐일 때, 위 공식은 정확히 이항분포의 확률 질량 함수와 동일해진다. 다항분포는 주사위 던지기, 선거에서의 후보별 득표 수, 자연어 처리에서의 단어 분포 모델링 등 여러 범주형 결과를 다루는 다양한 통계학 및 데이터 과학 문제에 적용된다.
4. 특성
4. 특성
4.1. 기댓값과 분산
4.1. 기댓값과 분산
다항분포에서 각 범주 i에 대한 발생 횟수 X_i의 기댓값은 n과 해당 범주의 확률 p_i의 곱이다. 즉, E(X_i) = n * p_i 이다. 이는 직관적으로, n번의 시행에서 특정 결과가 나올 확률이 p_i이므로 평균적으로 그 횟수는 n * p_i가 됨을 의미한다.
각 범주 i에 대한 X_i의 분산은 Var(X_i) = n * p_i * (1 - p_i) 이다. 이는 이항분포에서의 분산 공식과 동일한 형태를 가진다. 이는 다항분포의 각 X_i가 개별적으로는 성공 확률이 p_i인 이항분포를 따르기 때문이다.
한편, 서로 다른 두 범주 i와 j에 대한 공분산은 Cov(X_i, X_j) = -n * p_i * p_j 로 계산된다. 이 값은 항상 음수이다. 이는 총 시행 횟수 n이 고정되어 있기 때문에, 한 범주의 발생 횟수가 증가하면 다른 범주의 발생 횟수가 감소할 가능성이 높아지는, 즉 서로 음의 상관관계를 가짐을 나타낸다.
4.2. 공분산 행렬
4.2. 공분산 행렬
다항분포의 공분산 행렬은 각 범주별 발생 횟수들 사이의 선형 관계를 나타내는 행렬이다. 다항분포에서 두 개의 서로 다른 범주 *i*와 *j*에 대한 공분산은 *Cov(X_i, X_j) = -n p_i p_j*의 공식으로 계산된다. 여기서 *X_i*와 *X_j*는 각 범주의 발생 횟수, *p_i*와 *p_j*는 각 범주의 발생 확률, *n*은 총 시행 횟수를 의미한다.
이 음의 공분산 값은 다항분포의 중요한 특성을 보여준다. 총 시행 횟수 *n*이 고정되어 있기 때문에, 한 범주의 발생 횟수가 증가하면 다른 범주의 발생 횟수는 감소할 가능성이 높아진다. 이러한 관계는 확률의 총합이 1이라는 제약 조건에서 비롯된 것이다. 따라서 다항분포의 구성 요소들은 서로 독립적이지 않으며, 이 음의 상관관계가 공분산 행렬의 비대각 성분에 나타난다.
한편, 같은 범주 *i*에 대한 분산은 *Var(X_i) = n p_i (1 - p_i)*로, 이항분포의 분산 공식과 동일하다. 이 값은 공분산 행렬의 대각 성분을 구성한다. 결론적으로, 다항분포의 공분산 행렬은 대각선에는 각 범주의 분산을, 비대각선에는 범주 쌍 간의 음의 공분산을 배치하여 구성된다. 이 행렬은 다변량 분석이나 카이제곱 검정과 같은 통계적 추론에서 중요한 역할을 한다.
5. 다항분포와 이항분포의 관계
5. 다항분포와 이항분포의 관계
다항분포는 이항분포를 일반화한 형태이다. 이항분포는 각 시행에서 '성공'과 '실패'라는 두 가지 가능한 결과만을 고려하는 반면, 다항분포는 세 가지 이상의 가능한 결과를 고려한다. 즉, 이항분포는 결과의 범주 수 k가 2인 특수한 경우의 다항분포로 볼 수 있다.
구체적으로, 이항분포의 확률 변수는 성공 횟수 하나이지만, 다항분포는 각 범주별 발생 횟수를 나타내는 여러 확률 변수의 결합 확률 분포를 다룬다. 따라서 다항분포의 확률 질량 함수에서 범주 수 k를 2로 설정하면, 그 식은 이항분포의 확률 질량 함수와 동일해진다. 이 관계는 다항분포의 이론적 이해와 계산을 단순화하는 데 기여한다.
실제 적용 측면에서도 이 관계가 나타난다. 예를 들어, 주사위를 여러 번 던져 각 면이 나온 횟수를 분석하는 문제는 다항분포를 사용해야 하지만, 동전을 던져 앞면이 나온 횟수만을 세는 문제는 이항분포로 충분히 설명 가능하다. 이처럼 다항분포는 범주형 데이터 분석의 기본 도구로서, 통계적 추론과 머신러닝의 나이브 베이즈 분류기 등 다양한 분야에서 활용된다.
6. 적용 예시
6. 적용 예시
다항분포는 여러 범주를 가진 실험을 반복할 때, 각 범주별로 관측된 횟수의 분포를 설명하는 데 널리 사용된다. 가장 대표적인 예는 주사위를 여러 번 던지는 실험이다. 공정한 여섯 면 주사위를 n번 던질 때, 각 면(1부터 6까지)이 나온 횟수는 다항분포를 따른다. 이때 범주 수 k는 6이 되며, 각 범주의 확률은 1/6로 동일하다.
또 다른 주요 적용 분야는 자연어 처리와 텍스트 마이닝이다. 문서 내 단어의 출현 빈도를 모델링할 때, 문서를 하나의 시행, 각 단어를 하나의 결과로 간주하여 다항분포를 활용할 수 있다. 이를 통해 문서의 주제를 분류하거나, 언어 모델을 구축하는 데 기초가 된다. 이 외에도 여론 조사에서 여러 후보에 대한 지지율을 분석하거나, 유전학에서 특정 유전자형의 빈도를 조사하는 등 다양한 분야에서 범주형 데이터의 빈도 분석에 핵심적인 역할을 한다.
적용 분야 | 설명 예시 |
|---|---|
게임/시뮬레이션 | 주사위, 룰렛 등 다중 결과를 가진 도구의 반복 실험 |
텍스트 분석 | 문서 내 단어 빈도 분포 모델링 및 토픽 모델링 |
사회과학 조사 | 설문 응답(예: 매우 만족, 만족, 보통, 불만족, 매우 불만족)의 빈도 분석 |
생물학/유전학 | 집단 내 혈액형 또는 유전자형의 분포 조사 |
품질 관리 | 생산 라인에서 발생하는 여러 유형의 결함품의 수 분포 |
이러한 적용은 모두 사건이 서로 배타적인 여러 범주로 나뉘고, 각 시행이 독립적이며, 범주별 확률이 일정하다는 다항분포의 기본 가정을 충족하는 상황에 해당한다. 따라서 데이터가 이러한 특성을 가질 때, 그 빈도 분포를 이해하고 예측하는 강력한 통계적 도구가 된다.
7. 관련 분포
7. 관련 분포
다항분포는 여러 다른 확률 분포와 밀접한 관계를 가진다. 가장 직접적인 관계는 이항분포와의 관계이다. 다항분포는 결과가 두 가지인 베르누이 시행을 일반화하여 결과가 k개인 시행으로 확장한 것이며, 따라서 이항분포는 다항분포에서 k=2인 특수한 경우에 해당한다.
다항분포의 한계 분포는 포아송 분포가 될 수 있다. 즉, 시행 횟수 n이 매우 크고 각 범주의 확률이 매우 작을 때, 각 범주의 발생 횟수는 서로 독립인 포아송 분포를 따르는 것으로 근사할 수 있다. 또한, 다항분포는 디리클레 분포와도 깊은 연관이 있다. 디리클레 분포는 다항분포의 모수인 확률 벡터의 사전 확률 분포로 자주 사용되는 켤레 사전 분포이다.
다항분포에서 각 범주의 확률을 모수로 하는 범주 분포는 단일 시행(n=1)에 대한 다항분포로 정의된다. 따라서 범주 분포는 다항분포의 기본 구성 요소라고 볼 수 있다. 한편, 표본 공간이 무한히 많은 범주로 구성된 경우를 모델링하는 중국집 과정과 같은 확률 과정도 다항분포의 개념을 확장한 것으로 이해할 수 있다.
8. 여담
8. 여담
다항분포는 이항분포를 두 개 이상의 범주로 일반화한 형태이다. 이항분포가 '성공'과 '실패'라는 두 가지 결과만을 다루는 반면, 다항분포는 세 개 이상의 가능한 결과를 가진 실험을 모델링하는 데 사용된다. 이러한 특성 때문에 범주형 데이터 분석, 자연어 처리의 토픽 모델링, 유전학에서의 유전형 빈도 분석 등 다양한 다범주 문제의 이론적 기초를 제공한다.
다항분포의 표본 공간은 각 시행에서 k개의 가능한 결과가 있고, 이를 n번 독립적으로 반복했을 때 각 결과의 발생 횟수로 구성된다. 이는 다면체 주사위를 여러 번 던져 각 면이 나온 횟수를 세는 상황과 유사하다. 각 시행의 결과는 베르누이 시행이 아니라 카테고리 분포를 따른다고 볼 수 있으며, 다항분포는 이러한 카테고리 분포 시행을 n번 반복한 총합의 분포이다.
다항분포의 매개변수는 시행 횟수 n과 각 범주의 확률을 성분으로 하는 확률 벡터 p이다. 이 확률 벡터의 모든 성분의 합은 1이어야 한다는 제약 조건이 있기 때문에, 실제 자유도는 (k-1)개이다. 이는 다항분포를 다루는 데 있어 중요한 특징 중 하나이다.
다항분포에서 두 범주 i와 j에 대한 공분산은 음의 값을 가지며, 이는 한 범주의 발생 횟수가 증가하면 다른 범주의 발생 횟수가 감소할 가능성이 높다는 직관을 수학적으로 보여준다. 다항분포는 감마 함수를 이용하여 음이 아닌 실수 값의 시행 횟수로 일반화된 디리클레-다항 분포와도 깊은 관련이 있다.
