문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

다항분포 | |
정의 | 각 시행에서 발생 가능한 결과가 k개이고, 각 결과의 발생 확률이 고정된 독립 시행을 n번 반복할 때, 각 결과가 발생한 횟수의 결합 확률 분포 |
유형 | 이산 확률 분포 |
관련 분야 | 확률론 통계학 |
상세 정보 | |
확률 질량 함수 | P(X₁ = x₁, ..., Xₖ = xₖ) = (n! / (x₁! ... xₖ!)) p₁ˣ¹ ... pₖˣᵏ 여기서 x₁ + ... + xₖ = n, p₁ + ... + pₖ = 1 |
기댓값 | E[Xᵢ] = n pᵢ |
공분산 | Cov(Xᵢ, Xⱼ) = -n pᵢ pⱼ (i ≠ j) |
특수한 경우 | k=2일 때 이항분포가 됨 |
주요 용도 | 범주형 데이터 모델링 다중 선택 설문조사 결과 분석 자연어 처리의 단어 분포 모델링 |

다항분포는 확률론과 통계학에서 사용되는 이산 확률 분포의 하나이다. 이 분포는 각 시행에서 발생 가능한 결과가 두 개를 초과하는 경우, 즉 k개의 범주를 가진 실험을 여러 번 독립적으로 반복할 때 각 범주별로 관측된 횟수의 결합 확률 분포를 설명한다. 따라서 이항분포를 두 개 이상의 범주로 일반화한 형태라고 볼 수 있다.
다항분포의 전형적인 예로는 주사위를 여러 번 던져 각 면이 나온 횟수를 세거나, 선거에서 여러 후보에 대한 유권자의 선택을 모델링하는 경우를 들 수 있다. 이 분포는 기계 학습의 나이브 베이즈 분류기나 자연어 처리의 언어 모델과 같은 다양한 분야에서 범주형 데이터를 다루는 기본 도구로 널리 활용된다.
다항분포의 모수는 시행 횟수 n과 각 범주의 발생 확률을 나타내는 벡터 p이다. 이 분포에서 각 범주별 발생 횟수의 기댓값과 분산, 그리고 서로 다른 범주 간의 공분산은 확률 벡터 p로부터 직접 계산할 수 있다. 다항분포의 이러한 특성은 다변량 분석의 기초를 이루는 중요한 개념이다.

다항분포는 이산 확률 분포의 일종으로, 확률론과 통계학에서 널리 사용된다. 이 분포는 각 시행에서 발생 가능한 결과가 두 가지 이상인 다중 시행 실험을 모델링한다. 구체적으로, 서로 독립적이며 각 시행에서 k개의 가능한 결과(예: A, B, C 카테고리)가 있고, 각 결과가 발생할 확률이 시행마다 동일하게 고정되어 있을 때, n번의 시행 후 각 결과가 관측된 횟수의 결합 확률 분포를 나타낸다.
이러한 정의는 이항분포를 일반화한 것이다. 이항분포는 '성공'과 '실패'라는 두 가지 결과만을 고려하는 반면, 다항분포는 세 가지 이상의 범주형 결과를 다룰 수 있다. 예를 들어, 주사위를 여러 번 던져 각 면이 나온 횟수를 세거나, 설문 조사에서 여러 후보에 대한 지지율을 분석할 때 적용될 수 있다.
다항분포의 핵심 매개변수는 총 시행 횟수 n과, 각 범주별 발생 확률을 성분으로 하는 확률 벡터 p = (p1, p2, ..., pk)이다. 여기서 모든 확률의 합은 1이어야 한다. 이 분포는 다변량 분석의 기초가 되는 중요한 도구이며, 카이제곱 검정이나 로지스틱 회귀 분석 같은 범주형 데이터 분석 방법의 이론적 토대를 제공한다.

다항분포의 확률 질량 함수는 각 범주별 발생 횟수에 대한 확률을 제공한다. 시행 횟수 n, 범주 수 k, 그리고 각 범주 i의 발생 확률 p_i가 주어졌을 때, 각 범주에서 관측된 횟수 x_i의 벡터 (x_1, x_2, ..., x_k)에 대한 확률은 다음 공식으로 계산된다.
P(X_1 = x_1, X_2 = x_2, ..., X_k = x_k) = ( n! / (x_1! x_2! ... x_k!) ) * p_1^{x_1} * p_2^{x_2} * ... * p_k^{x_k}
여기서 모든 x_i는 0 이상의 정수이며, 그 합은 총 시행 횟수 n과 같다 (x_1 + x_2 + ... + x_k = n). 또한, 모든 확률 p_i의 합은 1이다 (p_1 + p_2 + ... + p_k = 1).
이 공식은 두 부분으로 구성된다. 첫 번째 부분인 다항 계수 ( n! / (x_1! x_2! ... x_k!) )는 총 n번의 시행에서 각 범주가 특정 횟수만큼 발생하는 서로 다른 순서의 가짓수를 나타낸다. 두 번째 부분인 p_1^{x_1} * p_2^{x_2} * ... * p_k^{x_k}는 각 범주가 정해진 횟수만큼 발생하는 하나의 특정 순서에 대한 확률을 의미한다. 이 두 요소를 곱함으로써 특정 결합 확률 분포를 얻을 수 있다.
이 확률 질량 함수는 이항분포를 두 개 이상의 범주로 일반화한 형태이다. 실제로 k=2인 경우, 즉 범주가 성공과 실패 두 가지뿐일 때, 위 공식은 정확히 이항분포의 확률 질량 함수와 동일해진다. 다항분포는 주사위 던지기, 선거에서의 후보별 득표 수, 자연어 처리에서의 단어 분포 모델링 등 여러 범주형 결과를 다루는 다양한 통계학 및 데이터 과학 문제에 적용된다.

다항분포에서 각 범주 i에 대한 발생 횟수 X_i의 기댓값은 n과 해당 범주의 확률 p_i의 곱이다. 즉, E(X_i) = n * p_i 이다. 이는 직관적으로, n번의 시행에서 특정 결과가 나올 확률이 p_i이므로 평균적으로 그 횟수는 n * p_i가 됨을 의미한다.
각 범주 i에 대한 X_i의 분산은 Var(X_i) = n * p_i * (1 - p_i) 이다. 이는 이항분포에서의 분산 공식과 동일한 형태를 가진다. 이는 다항분포의 각 X_i가 개별적으로는 성공 확률이 p_i인 이항분포를 따르기 때문이다.
한편, 서로 다른 두 범주 i와 j에 대한 공분산은 Cov(X_i, X_j) = -n * p_i * p_j 로 계산된다. 이 값은 항상 음수이다. 이는 총 시행 횟수 n이 고정되어 있기 때문에, 한 범주의 발생 횟수가 증가하면 다른 범주의 발생 횟수가 감소할 가능성이 높아지는, 즉 서로 음의 상관관계를 가짐을 나타낸다.
다항분포의 공분산 행렬은 각 범주별 발생 횟수들 사이의 선형 관계를 나타내는 행렬이다. 다항분포에서 두 개의 서로 다른 범주 *i*와 *j*에 대한 공분산은 *Cov(X_i, X_j) = -n p_i p_j*의 공식으로 계산된다. 여기서 *X_i*와 *X_j*는 각 범주의 발생 횟수, *p_i*와 *p_j*는 각 범주의 발생 확률, *n*은 총 시행 횟수를 의미한다.
이 음의 공분산 값은 다항분포의 중요한 특성을 보여준다. 총 시행 횟수 *n*이 고정되어 있기 때문에, 한 범주의 발생 횟수가 증가하면 다른 범주의 발생 횟수는 감소할 가능성이 높아진다. 이러한 관계는 확률의 총합이 1이라는 제약 조건에서 비롯된 것이다. 따라서 다항분포의 구성 요소들은 서로 독립적이지 않으며, 이 음의 상관관계가 공분산 행렬의 비대각 성분에 나타난다.
한편, 같은 범주 *i*에 대한 분산은 *Var(X_i) = n p_i (1 - p_i)*로, 이항분포의 분산 공식과 동일하다. 이 값은 공분산 행렬의 대각 성분을 구성한다. 결론적으로, 다항분포의 공분산 행렬은 대각선에는 각 범주의 분산을, 비대각선에는 범주 쌍 간의 음의 공분산을 배치하여 구성된다. 이 행렬은 다변량 분석이나 카이제곱 검정과 같은 통계적 추론에서 중요한 역할을 한다.

다항분포는 이항분포를 일반화한 형태이다. 이항분포는 각 시행에서 '성공'과 '실패'라는 두 가지 가능한 결과만을 고려하는 반면, 다항분포는 세 가지 이상의 가능한 결과를 고려한다. 즉, 이항분포는 결과의 범주 수 k가 2인 특수한 경우의 다항분포로 볼 수 있다.
구체적으로, 이항분포의 확률 변수는 성공 횟수 하나이지만, 다항분포는 각 범주별 발생 횟수를 나타내는 여러 확률 변수의 결합 확률 분포를 다룬다. 따라서 다항분포의 확률 질량 함수에서 범주 수 k를 2로 설정하면, 그 식은 이항분포의 확률 질량 함수와 동일해진다. 이 관계는 다항분포의 이론적 이해와 계산을 단순화하는 데 기여한다.
실제 적용 측면에서도 이 관계가 나타난다. 예를 들어, 주사위를 여러 번 던져 각 면이 나온 횟수를 분석하는 문제는 다항분포를 사용해야 하지만, 동전을 던져 앞면이 나온 횟수만을 세는 문제는 이항분포로 충분히 설명 가능하다. 이처럼 다항분포는 범주형 데이터 분석의 기본 도구로서, 통계적 추론과 머신러닝의 나이브 베이즈 분류기 등 다양한 분야에서 활용된다.

다항분포는 여러 범주를 가진 실험을 반복할 때, 각 범주별로 관측된 횟수의 분포를 설명하는 데 널리 사용된다. 가장 대표적인 예는 주사위를 여러 번 던지는 실험이다. 공정한 여섯 면 주사위를 n번 던질 때, 각 면(1부터 6까지)이 나온 횟수는 다항분포를 따른다. 이때 범주 수 k는 6이 되며, 각 범주의 확률은 1/6로 동일하다.
또 다른 주요 적용 분야는 자연어 처리와 텍스트 마이닝이다. 문서 내 단어의 출현 빈도를 모델링할 때, 문서를 하나의 시행, 각 단어를 하나의 결과로 간주하여 다항분포를 활용할 수 있다. 이를 통해 문서의 주제를 분류하거나, 언어 모델을 구축하는 데 기초가 된다. 이 외에도 여론 조사에서 여러 후보에 대한 지지율을 분석하거나, 유전학에서 특정 유전자형의 빈도를 조사하는 등 다양한 분야에서 범주형 데이터의 빈도 분석에 핵심적인 역할을 한다.
적용 분야 | 설명 예시 |
|---|---|
게임/시뮬레이션 | 주사위, 룰렛 등 다중 결과를 가진 도구의 반복 실험 |
텍스트 분석 | 문서 내 단어 빈도 분포 모델링 및 토픽 모델링 |
사회과학 조사 | 설문 응답(예: 매우 만족, 만족, 보통, 불만족, 매우 불만족)의 빈도 분석 |
생물학/유전학 | 집단 내 혈액형 또는 유전자형의 분포 조사 |
품질 관리 | 생산 라인에서 발생하는 여러 유형의 결함품의 수 분포 |
이러한 적용은 모두 사건이 서로 배타적인 여러 범주로 나뉘고, 각 시행이 독립적이며, 범주별 확률이 일정하다는 다항분포의 기본 가정을 충족하는 상황에 해당한다. 따라서 데이터가 이러한 특성을 가질 때, 그 빈도 분포를 이해하고 예측하는 강력한 통계적 도구가 된다.

다항분포는 여러 다른 확률 분포와 밀접한 관계를 가진다. 가장 직접적인 관계는 이항분포와의 관계이다. 다항분포는 결과가 두 가지인 베르누이 시행을 일반화하여 결과가 k개인 시행으로 확장한 것이며, 따라서 이항분포는 다항분포에서 k=2인 특수한 경우에 해당한다.
다항분포의 한계 분포는 포아송 분포가 될 수 있다. 즉, 시행 횟수 n이 매우 크고 각 범주의 확률이 매우 작을 때, 각 범주의 발생 횟수는 서로 독립인 포아송 분포를 따르는 것으로 근사할 수 있다. 또한, 다항분포는 디리클레 분포와도 깊은 연관이 있다. 디리클레 분포는 다항분포의 모수인 확률 벡터의 사전 확률 분포로 자주 사용되는 켤레 사전 분포이다.
다항분포에서 각 범주의 확률을 모수로 하는 범주 분포는 단일 시행(n=1)에 대한 다항분포로 정의된다. 따라서 범주 분포는 다항분포의 기본 구성 요소라고 볼 수 있다. 한편, 표본 공간이 무한히 많은 범주로 구성된 경우를 모델링하는 중국집 과정과 같은 확률 과정도 다항분포의 개념을 확장한 것으로 이해할 수 있다.

다항분포는 이항분포를 두 개 이상의 범주로 일반화한 형태이다. 이항분포가 '성공'과 '실패'라는 두 가지 결과만을 다루는 반면, 다항분포는 세 개 이상의 가능한 결과를 가진 실험을 모델링하는 데 사용된다. 이러한 특성 때문에 범주형 데이터 분석, 자연어 처리의 토픽 모델링, 유전학에서의 유전형 빈도 분석 등 다양한 다범주 문제의 이론적 기초를 제공한다.
다항분포의 표본 공간은 각 시행에서 k개의 가능한 결과가 있고, 이를 n번 독립적으로 반복했을 때 각 결과의 발생 횟수로 구성된다. 이는 다면체 주사위를 여러 번 던져 각 면이 나온 횟수를 세는 상황과 유사하다. 각 시행의 결과는 베르누이 시행이 아니라 카테고리 분포를 따른다고 볼 수 있으며, 다항분포는 이러한 카테고리 분포 시행을 n번 반복한 총합의 분포이다.
다항분포의 매개변수는 시행 횟수 n과 각 범주의 확률을 성분으로 하는 확률 벡터 p이다. 이 확률 벡터의 모든 성분의 합은 1이어야 한다는 제약 조건이 있기 때문에, 실제 자유도는 (k-1)개이다. 이는 다항분포를 다루는 데 있어 중요한 특징 중 하나이다.
다항분포에서 두 범주 i와 j에 대한 공분산은 음의 값을 가지며, 이는 한 범주의 발생 횟수가 증가하면 다른 범주의 발생 횟수가 감소할 가능성이 높다는 직관을 수학적으로 보여준다. 다항분포는 감마 함수를 이용하여 음이 아닌 실수 값의 시행 횟수로 일반화된 디리클레-다항 분포와도 깊은 관련이 있다.