이 문서의 과거 버전 (r1)을 보고 있습니다. 수정일: 2026.02.27 00:53
이항 분포는 베르누이 시행을 독립적으로 반복했을 때의 성공 횟수를 나타내는 이산 확률 분포이다. 주로 성공 또는 실패와 같은 두 가지 가능한 결과를 가지는 실험을 여러 번 수행할 때 사용된다. 이 분포는 통계학과 확률론의 기초를 이루는 중요한 개념으로, 품질 관리부터 의학 연구에 이르기까지 다양한 분야에서 응용된다.
이항 분포는 두 개의 매개변수로 정의된다. 하나는 시행의 총 횟수를 나타내는 자연수 n이고, 다른 하나는 각 시행에서의 성공 확률 p이다. 확률 변수 X가 이항 분포를 따른다는 것은 X ~ B(n, p)와 같이 표기한다. 이때 성공 횟수 k의 확률은 조합과 지수를 이용한 공식으로 계산할 수 있다.
이 분포의 평균, 즉 기댓값은 시행 횟수와 성공 확률의 곱인 np이다. 분산은 np(1-p)로 계산되며, 이는 데이터가 평균 주위에 퍼져 있는 정도를 나타낸다. 이항 분포는 정규 분포나 포아송 분포와 같은 다른 주요 분포들과 밀접한 관계를 가진다. 특히 시행 횟수가 매우 많아지면 이항 분포는 정규 분포에 근사하는 성질을 보인다.
이항 분포는 베르누이 시행을 독립적으로 반복했을 때의 성공 횟수를 나타내는 이산 확률 분포이다. 구체적으로, 성공 확률이 *p*인 베르누이 시행을 *n*번 독립적으로 반복했을 때의 총 성공 횟수를 확률변수 *X*라 하면, *X*는 이항 분포를 따른다고 말한다. 이는 *X* ~ B(*n*, *p*)와 같이 표기한다.
이항 분포의 확률 질량 함수는 특정 성공 횟수 *k*에 대한 확률을 직접 계산하는 공식으로 주어진다. *n*번의 시행 중 정확히 *k*번 성공할 확률은 조합의 수와 각 사건의 확률을 곱한 P(*X* = *k*) = C(*n*, *k*) *p*^*k* (1-*p*)^(*n*-*k*) 이다. 여기서 *k*는 0부터 *n*까지의 정수 값을 가질 수 있으며, C(*n*, *k*)는 *n*개 중 *k*개를 선택하는 조합의 수를 의미한다.
이러한 정의는 동전 던지기, 합격/불합격 판정, 불량품 검사와 같이 각 시행의 결과가 두 가지로만 나뉘는 상황을 모델링하는 데 널리 사용된다. 이항 분포의 주요 특성인 기댓값과 분산은 각각 E(*X*) = *np*, Var(*X*) = *np*(1-*p*)로 주어지며, 이는 시행 횟수와 성공 확률에 의해 결정된다.
이항 분포의 확률 질량 함수는 특정한 성공 횟수가 관측될 확률을 계산하는 공식이다. 성공 확률이 p인 베르누이 시행을 독립적으로 n번 반복할 때, 성공 횟수를 확률변수 X라고 하면, X가 정수 k(0 ≤ k ≤ n)의 값을 가질 확률은 다음과 같이 주어진다.
P(X = k) = nCk * p^k * (1-p)^(n-k)
여기서 nCk는 조합을 나타내며, n번의 시행 중 k번의 성공이 발생하는 서로 다른 경우의 수를 의미한다. p^k 항은 k번 성공할 확률을, (1-p)^(n-k) 항은 나머지 (n-k)번 실패할 확률을 각각 나타낸다. 이 공식은 모든 가능한 k 값(0부터 n까지)에 대한 확률의 합이 1이 되도록 보장한다.
이 확률 질량 함수는 이항 계수를 포함하고 있어 이항 분포라는 이름의 유래가 되었다. 함수의 형태는 모수 n과 p의 값에 따라 달라지며, p가 0.5에 가까울수록 분포는 대칭에 가까워진다. 반면 p가 0이나 1에 가까우면 분포는 한쪽으로 치우친 형태를 보인다. 이 함수를 통해 특정 실험에서 예상되는 성공 횟수의 분포를 정량적으로 이해하고, 통계적 추론을 수행하는 데 활용할 수 있다.
이항 분포의 기댓값은 확률변수 X의 평균적인 값을 의미하며, 그 값은 시행 횟수 n과 성공 확률 p의 곱인 np이다. 이는 직관적으로 이해할 수 있는데, 예를 들어 성공 확률이 0.3인 시행을 10번 반복하면 평균적으로 3번의 성공을 기대할 수 있다는 뜻이다. 이 기댓값은 베르누이 분포의 기댓값 p를 n배 한 것과 같다.
이항 분포의 분산은 확률변수 X가 기댓값 주위로 얼마나 퍼져 있는지를 나타내는 척도이다. 그 값은 np(1-p)로 계산된다. 분산은 성공 확률 p가 0.5일 때 최대가 되며, p가 0이나 1에 가까워질수록, 즉 성공이나 실패가 거의 확실해질수록 분산은 0에 가까워진다. 이는 결과의 불확실성이 줄어든다는 것을 의미한다.
기댓값과 분산은 이항 분포를 기술하는 가장 기본적인 특성치이다. 이 두 값을 알면 해당 확률 분포의 중심 경향성과 변동성을 파악할 수 있어, 실제 데이터를 분석하거나 예측 모델을 구축할 때 중요한 기준이 된다. 예를 들어, 품질 관리에서 불량품 개수를 모델링하거나, 의학에서 치료 성공 횟수를 예측할 때 이 값들이 활용된다.
이항 분포의 기댓값과 분산은 선형성과 독립성을 이용하여 증명할 수 있다. 이항 확률변수 X는 n개의 독립적인 베르누이 확률변수의 합으로 표현할 수 있기 때문이다. 각 베르누이 확률변수의 기댓값은 p, 분산은 p(1-p)이므로, 합의 기댓값은 np, 합의 분산은 np(1-p)가 된다.
이항 분포는 독립적인 베르누이 시행의 반복이라는 기본 가정에서 비롯되는 몇 가지 중요한 성질을 가진다. 첫째, 독립성과 동일한 분포를 가진 시행의 합이라는 점에서, 중심극한정리에 따라 표본 크기 n이 충분히 크면 이항 분포는 정규 분포에 근사한다. 이는 실제 계산과 통계적 추론에서 널리 활용되는 성질이다. 둘째, 이항 분포의 확률 질량 함수는 n과 p의 값에 따라 그 형태가 변하는데, p가 0.5에 가까울수록 분포는 대칭에 가까워지며, p가 0이나 1에 가까울수록 분포는 한쪽으로 치우친 모양을 보인다.
이항 분포의 또 다른 핵심 성질은 가법성이다. 두 개의 독립적인 이항 확률 변수 X ~ B(n, p)와 Y ~ B(m, p)가 동일한 성공 확률 p를 공유할 때, 그 합 X+Y는 다시 이항 분포 B(n+m, p)를 따른다. 이 성질은 여러 독립적인 실험군의 결과를 통합할 때 유용하게 사용된다. 반면, 성공 확률 p가 서로 다른 두 이항 확률 변수의 합은 이항 분포를 따르지 않는다는 점에 유의해야 한다.
이항 분포는 포아송 분포와도 깊은 관련이 있다. 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작아, 기댓값 np가 일정한 값 λ로 수렴할 때, 이항 분포 B(n, p)는 모수 λ를 가진 포아송 분포로 근사할 수 있다. 이는 희귀 사건의 발생 횟수를 모델링하는 데 유용한 성질이다. 마지막으로, 이항 분포에서 성공 횟수 X 대신 실패 횟수 Y = n - X를 고려하면, Y는 성공 확률이 (1-p)인 이항 분포 B(n, 1-p)를 따르게 되어 대칭적인 관계를 이룬다.
이항 분포는 여러 다른 확률 분포와 밀접한 관계를 가진다. 가장 직접적인 관계는 베르누이 분포와의 관계이다. 이항 분포는 성공 확률이 p인 베르누이 시행을 독립적으로 n번 반복했을 때의 성공 횟수의 분포로 정의된다. 따라서 n=1인 이항 분포 B(1, p)는 매개변수가 p인 베르누이 분포와 정확히 일치한다. 즉, 베르누이 분포는 이항 분포의 특수한 경우이다.
시행 횟수 n이 매우 크고 성공 확률 p가 매우 작아 기댓값 λ = np가 일정한 값을 유지할 때, 이항 분포 B(n, p)는 포아송 분포 Pois(λ)로 근사할 수 있다. 이는 포아송 극한 정리로 알려져 있으며, 희귀 사건의 발생 횟수를 모델링하는 데 유용하게 적용된다. 반대로, 시행 횟수 n이 충분히 클 때는 중심극한정리에 의해 이항 분포는 정규 분포 N(np, np(1-p))로 근사된다. 이 근사는 특히 p가 0이나 1에 너무 치우치지 않을 때 더욱 정확해진다.
또한, 이항 분포는 초기하 분포와도 연관이 있다. 초기하 분포는 유한 모집단에서 비복원 추출을 할 때의 성공 횟수를 나타내지만, 추출하는 표본의 크기가 모집단 크기에 비해 매우 작을 경우, 이항 분포로 근사하여 계산할 수 있다. 이는 복원 추출(이항 분포)과 비복원 추출(초기하 분포)의 결과가 유사해지기 때문이다. 마지막으로, 베타 분포는 이항 분포의 켤레 사전 분포로, 베이즈 통계학에서 성공 확률 p에 대한 사전 정보를 표현하는 데 자주 사용된다.
이항 분포는 성공 또는 실패와 같은 두 가지 결과만을 가지는 독립적인 시행을 반복할 때의 성공 횟수를 모델링하는 데 널리 사용된다. 이는 품질 관리에서 불량품 개수를 추정하거나, 의학 연구에서 특정 치료법의 효과를 가진 환자 수를 분석하는 등 다양한 분야의 통계적 추론의 기초가 된다. 또한 여론 조사에서 특정 후보를 지지하는 응답자 수를 예측할 때도 적용될 수 있다.
구체적인 예로, 공정 능력 분석에서는 생산 라인에서 샘플을 추출해 불량품 수를 세고, 이를 이항 분포를 통해 모집단의 불량률을 추정한다. 임상 시험에서는 신약을 투여받은 환자 집단에서 치료 반응을 보인 환자의 비율을 분석할 때 이항 분포가 사용된다. 마케팅에서는 광고 캠페인에 반응한 고객의 수나 온라인 설문에서 특정 답변을 선택한 참가자 수를 모델링하는 데에도 유용하다.
이항 분포의 응용은 단순한 카운팅을 넘어 가설 검정과 신뢰 구간 추정의 핵심 도구로 자리 잡고 있다. 예를 들어, 두 가지 광고 중 어느 것이 더 높은 클릭률을 보이는지 비교하는 A/B 테스트나, 제조 공정의 불량률이 허용 기준을 초과하는지 판단하는 검정에서 그 근거가 된다. 이러한 통계적 방법론은 데이터 과학과 비즈니스 인텔리전스 분야에서 데이터 기반 의사결정을 지원한다.