이항분포
1. 개요
1. 개요
이항분포는 이산 확률 분포의 대표적인 형태이다. 성공 확률이 p인 독립적인 베르누이 시행을 n번 반복했을 때, 발생하는 성공 횟수 X를 모델링하는 분포이다. 이는 동전 던지기, 설문 조사, 품질 검사 등 오직 두 가지 결과(성공/실패)만을 가지는 반복적인 실험을 분석하는 데 널리 사용된다.
이 분포는 두 개의 매개변수, 즉 시행 횟수 n과 각 시행의 성공 확률 p에 의해 완전히 결정되며, 표기법으로는 X ~ B(n, p)로 나타낸다. 그 핵심 특성으로는 기대값이 np이고, 분산이 np(1-p)라는 점이 있다. 이는 시행 횟수가 늘어날수록 평균적인 성공 횟수는 비례하여 증가하지만, 데이터의 흩어짐은 p가 0.5에 가까울 때 가장 크다는 직관을 제공한다.
이항분포는 통계학의 기초를 이루며, 가설 검정, 신뢰 구간 추정, 품질 관리 등 다양한 분야에서 응용된다. 또한 푸아송 분포나 정규분포와 같은 다른 중요한 분포들로 근사될 수 있어, 더 복잡한 통계적 모델링의 출발점이 되기도 한다.
2. 정의
2. 정의
이항분포는 이산 확률 분포의 대표적인 형태이다. 이 분포는 성공 확률이 p로 동일한 베르누이 시행을 독립적으로 n번 반복했을 때, 발생하는 총 성공 횟수 X를 모델링한다. 여기서 각 시행의 결과는 오직 '성공' 또는 '실패' 두 가지로만 구분된다. 이러한 조건을 만족하는 확률변수 X는 매개변수 n과 p를 가지는 이항분포를 따른다고 하며, 통상적으로 X ~ B(n, p)로 표기한다.
이항분포의 핵심 가정은 각 시행이 독립적이고, 성공 확률 p가 모든 시행에서 일정하게 유지된다는 점이다. 예를 들어, 동전을 10번 던져 앞면이 나오는 횟수, 특정 질병에 대한 백신 접종 후 100명 중 항체가 생성된 사람의 수, 또는 불량률이 5%인 공정에서 20개의 제품을 샘플링했을 때 발견되는 불량품의 수 등을 이항분포로 분석할 수 있다.
이 분포의 확률 질량 함수는 P(X = k) = C(n, k) p^k (1-p)^{n-k}로 주어진다. 여기서 k는 0부터 n까지의 정수 값을 가지는 성공 횟수이며, C(n, k)는 조합을 나타내는 이항 계수이다. 이 공식은 n번의 시행 중 정확히 k번 성공할 확률을 계산하는 데 사용된다. 이항분포의 기대값은 E(X) = np이고, 분산은 Var(X) = np(1-p)이다.
3. 확률 질량 함수
3. 확률 질량 함수
이항분포의 확률 질량 함수는 확률변수 X가 특정한 값 k를 가질 확률, 즉 n번의 독립적인 베르누이 시행에서 정확히 k번 성공할 확률을 제공하는 공식이다. 이는 이항 계수를 사용하여 P(X = k) = C(n, k) p^k (1-p)^{n-k}로 표현된다. 여기서 C(n, k)는 n번 시행 중 k번의 성공을 선택하는 조합의 수를 의미하며, p^k (1-p)^{n-k}는 특정한 순서로 k번 성공하고 (n-k)번 실패할 확률을 나타낸다.
이 공식은 각 시행이 성공 또는 실패라는 두 가지 결과만을 가지는 독립 시행의 시퀀스라는 이항분포의 기본 가정을 직접 반영한다. 확률 질량 함수의 값은 k = 0, 1, 2, ..., n 에 대해서만 정의되며, 모든 가능한 k에 대한 확률의 합은 1이 된다. 이 함수의 형태는 시행 횟수 n과 성공 확률 p의 값에 따라 좌우측으로 치우치거나(왜도) 대칭을 이룰 수 있다.
확률 질량 함수는 이항분포를 활용한 모든 확률 계산의 기초가 된다. 예를 들어, 불량률이 p인 공정에서 n개의 제품을 샘플링했을 때 정확히 k개의 불량품이 발견될 확률, 또는 유권자 지지도가 p일 때 n명의 무작위 표본 조사에서 정확히 k명이 특정 후보를 지지할 확률 등을 이 공식을 통해 구할 수 있다. 이처럼 품질 관리나 여론 조사를 포함한 다양한 통계적 추론의 장면에서 핵심적으로 적용된다.
4. 누적 분포 함수
4. 누적 분포 함수
이항분포의 누적 분포 함수는 확률변수 X가 특정 값 k 이하일 확률을 나타낸다. 즉, 성공 확률이 p인 독립적인 베르누이 시행을 n번 반복했을 때, 성공 횟수가 최대 k번일 확률을 의미한다. 이는 모든 가능한 성공 횟수(0부터 k까지)에 대한 확률 질량 함수 값의 합으로 계산된다.
누적 분포 함수는 정수 k에 대해 다음과 같이 정의된다.
F(k; n, p) = Pr(X ≤ k) = Σ_{j=0}^{k} C(n, j) * p^j * (1-p)^{n-j}
여기서 C(n, j)는 이항 계수를 나타낸다. 이 공식은 k번 이하의 성공을 달성하는 모든 경우의 확률을 합산한 것이다.
이 함수는 통계학에서 유의성 검정이나 신뢰구간 계산과 같은 다양한 추론의 기초가 된다. 또한, 이항분포의 누적 분포는 불완전 베타 함수와의 관계를 통해 다른 형태로 표현되기도 한다.
5. 평균과 분산
5. 평균과 분산
이항분포의 평균과 분산은 분포의 중심 경향성과 퍼짐 정도를 나타내는 중요한 특성이다. 기대값이라고도 불리는 평균은 성공 횟수의 예상되는 중심값을, 분산은 그 예상값 주변으로 성공 횟수가 얼마나 흩어져 있는지를 나타낸다.
이항분포 X ~ B(n, p)의 평균 E(X)는 시행 횟수 n과 각 시행의 성공 확률 p의 곱인 np이다. 이는 직관적으로 이해할 수 있는데, 예를 들어 성공 확률이 0.3인 시행을 10번 반복하면, 예상되는 평균 성공 횟수는 10 * 0.3 = 3회가 된다. 이 값은 각 베르누이 시행의 평균 p를 n번 더한 것과 같다.
이항분포의 분산 Var(X)는 np(1-p)로 주어진다. 분산은 평균 주변의 변동성을 측정하며, 여기서 (1-p)는 실패 확률을 의미한다. 이 공식에서 알 수 있듯이, 분산은 성공 확률 p가 0.5일 때 최대가 되고, p가 0이나 1에 가까워질수록 0에 수렴한다. 이는 결과의 불확실성이 가장 클 때 분산이 최대가 됨을 의미한다.
평균과 분산의 공식은 확률 질량 함수로부터 직접 유도할 수 있다. 평균의 유도에는 이항 계수의 성질과 합의 계산이 사용되며, 분산의 유도에는 평균의 공식과 기대값의 선형성을 활용한다. 이러한 특성 덕분에 이항분포는 통계학의 추정과 가설 검정에서 널리 활용된다.
6. 성질
6. 성질
이항분포는 몇 가지 중요한 성질을 가진다. 첫째, 이항분포의 평균은 시행 횟수 n과 성공 확률 p의 곱인 np이다. 분산은 np(1-p)로 계산된다. 이는 각 시행이 독립적인 베르누이 시행이며, 베르누이 확률변수의 합으로 해석할 수 있기 때문이다. 평균과 분산은 기대값과 분산의 선형성 및 독립성에 기초하여 유도된다.
둘째, 이항분포의 형태는 매개변수 p의 값에 따라 달라진다. p가 0.5이면 확률 질량 함수는 대칭적인 형태를 보인다. 반면 p가 0.5보다 크거나 작으면 분포가 한쪽으로 치우친 비대칭 형태를 나타낸다. 또한 시행 횟수 n이 충분히 크고 p가 0이나 1에 너무 치우치지 않으면, 이항분포는 정규분포에 근사한다는 성질이 있다. 이는 중심극한정리와 관련이 깊다.
셋째, 이항분포는 재생산성을 가진다. 서로 독립이고 동일한 성공 확률 p를 따르는 두 개의 이항확률변수 X ~ B(n, p)와 Y ~ B(m, p)가 있다면, 그 합 X+Y는 B(n+m, p)를 따른다. 이 성질은 여러 번의 독립적인 이항 실험 결과를 합칠 때 유용하게 적용된다.
마지막으로, 이항분포의 최빈값은 (n+1)p를 넘지 않는 가장 큰 정수이다. 만약 (n+1)p가 정수라면, 그 값과 그 값에서 1을 뺀 값 두 개가 동시에 최빈값이 된다. 이러한 성질들은 이항분포를 통계학의 다양한 추론과 가설 검정에 활용하는 데 기초가 된다.
7. 관련 분포
7. 관련 분포
이항분포는 여러 다른 확률 분포와 밀접한 관계를 가진다. 가장 기본적인 관계는 시행 횟수 n이 1인 경우, 이항분포는 성공 확률 p를 매개변수로 하는 베르누이 분포와 정확히 일치한다. 즉, 베르누이 분포는 이항분포의 특수한 경우이다.
시행 횟수 n이 매우 크고 성공 확률 p가 매우 작아 평균 np가 일정한 값 λ를 유지할 때, 이항분포는 매개변수 λ를 가지는 푸아송 분포로 근사할 수 있다. 이는 희귀 사건의 확률을 모델링할 때 유용하다. 반대로, 시행 횟수 n이 충분히 클 때, 중심극한정리에 의해 이항분포는 평균 np, 분산 np(1-p)를 가지는 정규분포로 근사된다. 이 근사는 p가 0이나 1에 지나치게 치우치지 않을 때 더 정확하다.
또한, 이항분포는 초기하분포와도 관련이 있다. 초기하분포는 유한 모집단에서 비복원 추출을 할 때의 성공 횟수를 모델링하는데, 추출하는 표본의 크기 n이 전체 모집단 크기 N에 비해 매우 작으면, 초기하분포는 이항분포에 가까워진다. 마지막으로, 성공 횟수를 여러 범주로 확장한 분포로는 다항 분포가 있으며, 이는 이항분포를 일반화한 형태이다.
8. 응용
8. 응용
이항분포는 성공 확률이 일정한 독립적인 베르누이 시행을 반복할 때의 성공 횟수를 모델링하는 데 널리 사용된다. 이 특성 덕분에 품질 관리, 의학, 여론 조사, 보험, 게임 이론 등 다양한 분야에서 응용된다.
품질 관리 공정에서 불량률이 p인 생산 라인에서 n개의 제품을 샘플링하여 발견되는 불량품의 수는 이항분포 B(n, p)를 따른다. 이를 통해 샘플링 검사 계획을 수립하거나 공정의 안정성을 평가할 수 있다. 의학 및 생물학 연구에서는 특정 치료법의 효과를 평가할 때 사용된다. 예를 들어, 환자 n명에게 치료를 시행했을 때 증상이 호전되는 환자의 수를 분석하는 경우에 적용된다. 임상 시험의 결과 해석에 중요한 도구가 된다.
여론 조사와 통계적 추정에서도 핵심 역할을 한다. n명의 유권자를 무작위로 추출하여 특정 후보를 지지하는 응답자의 수는 이항분포를 따르며, 이를 바탕으로 모집단의 전체 지지율 p를 추정하고 그 신뢰 구간을 계산할 수 있다. 보험 수리학에서는 특정 기간 내에 청구가 발생하는 건수를 모델링하는 데 활용되며, 게임 이론과 도박에서는 주사위나 카드 게임과 같은 독립적인 시행에서 특정 사건이 발생할 확률을 계산하는 데 사용된다.
이항분포는 시행 횟수 n이 크고 성공 확률 p가 매우 작지 않을 때 정규 분포로 근사되며, n이 크고 p가 매우 작을 때는 포아송 분포로 근사된다. 이러한 근사는 계산을 단순화하는 데 유용하게 쓰인다.
9. 여담
9. 여담
이항분포는 통계학과 확률론에서 가장 기본적이고 널리 알려진 분포 중 하나이다. 이 분포는 베르누이 시행이라는 단순한 개념을 바탕으로 하여, 동일한 조건에서 독립적으로 반복되는 시행의 성공 횟수를 모델링한다. 이러한 단순성과 명확성 덕분에 통계학 입문 과정에서 초반에 배우는 핵심 내용이 되며, 더 복잡한 확률 모델을 이해하는 토대를 제공한다.
이항분포의 응용 범위는 매우 넓다. 품질 관리에서 불량품 개수를 추정하거나, 의학 연구에서 특정 치료법의 효과를 분석할 때, 그리고 여론 조사에서 지지율을 예측할 때까지 다양한 분야에서 활용된다. 또한, 시행 횟수 *n*이 크고 성공 확률 *p*가 매우 작거나 1에 가깝지 않을 때, 이항분포는 정규분포나 푸아송 분포로 근사될 수 있어 계산상의 편의를 제공한다.
이항분포라는 이름은 확률 질량 함수의 형태가 이항 정리의 전개식에서 나오는 항과 유사하기 때문에 붙여졌다. 역사적으로는 야코프 베르누이의 저서 '추측술'에서 그 기초가 다져졌으며, 이후 피에르시몽 라플라스와 카를 프리드리히 가우스를 비롯한 여러 수학자들에 의해 더욱 발전되었다. 오늘날에는 인공지능의 머신러닝 알고리즘, 특히 나이브 베이즈 분류기와 같은 모델에서도 그 기본 원리가 응용되고 있다.
