포아송 분포 (r1)

1. 개요

포아송 분포는 단위시간 동안 또는 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 이산 확률 분포이다. 프랑스의 수학자 시메옹 드니 푸아송이 1837년 자신의 저서 『민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 관한 서문』에서 처음 소개하였다.

이 분포는 이항 분포의 특수한 경우로 볼 수 있다. 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작아, 평균 발생 횟수 λ = n p 가 유한한 값을 유지할 때, 이항 분포는 포아송 분포로 근사된다. 이 관계는 푸아송 극한 정리로 설명된다. 따라서 사건의 총 시행 횟수 n과 개별 성공 확률 p를 정확히 알지 못하더라도, 단위 구간 내 평균 발생 횟수 λ만 알면 사건 발생 횟수의 확률을 계산하는 데 유용하게 적용할 수 있다.

포아송 분포의 주요 매개변수는 λ(람다)이며, 이는 단위 시간 또는 공간 내에서 평균적으로 발생하는 사건의 횟수를 의미한다. 주목할 만한 특징은 포아송 분포의 평균과 분산이 모두 λ로 동일하다는 점이다. 이 분포는 교통량 분석, 통신 시스템의 호 발생, 생물학의 돌연변이 수 세기, 금융에서의 위험 사건 모델링 등 다양한 분야에서 희귀 사건의 발생 빈도를 모델링하는 데 널리 사용된다.

2. 조건

포아송 분포를 적용하기 위해서는 세 가지 기본 조건이 충족되어야 한다. 첫째, 사건의 발생은 독립적이어야 한다. 즉, 어떤 시간 구간에서 사건이 발생한 횟수는 다른 시간 구간에서의 발생 횟수에 영향을 주지 않아야 한다. 둘째, 매우 짧은 시간 동안 두 번 이상의 사건이 발생할 확률은 거의 0에 가까워야 한다. 셋째, 짧은 시간 구간에서 사건이 한 번 발생할 확률은 그 구간의 길이에 비례해야 한다.

이러한 조건들은 포아송 분포가 이항 분포의 특수한 극한 형태로 유도될 수 있는 근거가 된다. 구체적으로, 시행 횟수 n이 매우 크고 각 시행에서 사건이 발생할 확률 p가 매우 작아, 평균 발생 횟수인 λ = n p 가 유한한 값을 유지할 때, 이항 분포는 포아송 분포로 근사된다. 통계적 실무에서는 일반적으로 n ≥ 100 이고 n p ≤ 10 일 때, 또는 n ≥ 20 이고 p ≤ 0.05 일 때 포아송 근사가 유효한 것으로 간주한다.

이 조건들은 현실 세계의 다양한 현상을 모델링하는 데 적용된다. 예를 들어, 단위 시간당 콜센터에 걸려오는 전화 횟수, 특정 교차로에서 발생하는 교통사고 건수, 또는 방사성 물질이 단위 시간 동안 방출하는 입자 수 등을 분석할 때 포아송 분포가 사용될 수 있다. 이러한 현상들은 각 사건이 독립적으로 발생하고, 극히 짧은 순간에 중복 발생할 가능성이 매우 낮다는 특징을 공유한다.

3. 유도 과정(푸아송 극한 정리)

포아송 분포는 이항 분포의 특수한 극한 형태로부터 유도된다. 이항 분포에서 시행 횟수 n이 무한대로 커지고, 각 시행에서 성공 확률 p가 0에 가까워지지만, 그 기댓값인 np가 일정한 값 λ로 수렴할 때, 이항 분포의 확률 질량 함수는 포아송 분포의 형태로 근사된다. 이 관계를 설명하는 정리를 푸아송 극한 정리라고 한다.

구체적인 유도 과정은 다음과 같다. 이항 분포의 확률 질량 함수는 Pr(X=x) = n!/((n-x)! x!) * p^x * (1-p)^(n-x)이다. 여기서 p = λ/n으로 치환하고, n이 무한대로 가는 극한을 취한다. 이때, (1 - λ/n)^n 항은 자연상수 e의 정의에 따라 e^(-λ)로 수렴하며, 다른 항들도 정리하면 최종적으로 Pr(X=x) = (λ^x * e^(-λ)) / x! 이라는 포아송 분포의 확률 질량 함수를 얻는다.

이 유도 과정은 포아송 분포가 이항 분포의 특별한 근사임을 보여준다. 즉, 시행 횟수가 매우 많지만 각 시행에서 사건이 발생할 확률이 매우 작은 희귀 사건을 모델링할 때 유용하다. 이는 큰 수의 법칙과 중심극한정리와 함께 확률론의 중요한 극한 정리 중 하나에 해당한다.

4. 의미

4.1. 예제

포아송 분포는 단위시간이나 단위공간에서 발생하는 사건의 횟수를 모델링하는 데 널리 사용된다. 대표적인 예로는 특정 시간 동안 콜센터에 걸려오는 전화 횟수, 교차로에서 일정 시간 내에 통과하는 차량의 수, 또는 책 한 페이지당 발견되는 오타의 개수 등을 들 수 있다. 이러한 사건들은 드물게 발생하지만, 많은 기회가 주어지는 상황에서 이항 분포의 특별한 경우로 근사될 수 있다.

구체적인 예를 살펴보면, 한 병원의 응급실이 시간당 평균 4건의 환자를 받는다고 가정해 보자. 이때 포아송 분포를 적용하여 다음 한 시간 동안 정확히 2명의 환자가 도착할 확률을 계산할 수 있다. 여기서 평균 발생 횟수 λ는 4이며, 사건 발생 횟수 x는 2가 된다. 확률질량함수 공식에 대입하면, 그 확률은 (4² * e⁻⁴) / 2! 로 계산된다.

또 다른 예로, 한 제조 공장에서 생산되는 반도체 칩 1000개당 평균 2개의 불량품이 발견된다고 하자. 이 경우, 임의로 선택한 한 개의 칩을 검사했을 때 불량품이 하나도 없을 확률을 구하는 문제에 포아송 분포를 활용할 수 있다. 단위를 "칩 1개"로 설정하면, λ는 0.002가 되며, x=0을 대입하여 확률을 근사적으로 구한다. 이는 품질 관리 분야에서 흔히 응용되는 사례이다.

이러한 예제들은 포아송 분포가 통계학, 공학, 생물학, 보험 수리학 등 다양한 분야에서 유용한 도구임을 보여준다. 특히 사건 발생이 독립적이고, 희귀하며, 평균 발생률이 알려진 확률 과정을 분석하는 데 적합하다.

5. 평균과 분산

포아송 분포의 평균과 분산은 모두 모수 λ와 같다. 이는 포아송 분포가 이항 분포의 극한 형태로 유도된다는 점에서 이해할 수 있다. 이항 분포의 평균은 np이고, 포아송 분포로의 근사 조건인 n → ∞, p → 0, np → λ에 따라, 평균은 λ로 수렴한다.

분산 또한 같은 값을 가진다. 이항 분포의 분산 공식은 np(1-p)이다. 여기서 p가 0에 매우 가까워지면 (1-p)는 1에 가까워지므로, 분산 np(1-p)는 np, 즉 λ에 근사하게 된다. 따라서 포아송 분포에서는 평균과 분산이 동일한 λ 값을 갖는 독특한 특성을 보인다.

이 성질은 적률생성함수를 이용하여 엄밀하게 증명할 수 있다. 포아송 분포의 적률생성함수는 e^{λ(e^t - 1)}의 형태를 가지며, 이를 한 번과 두 번 미분한 후 t=0을 대입하여 구한 기댓값 E(X)와 E(X²)를 계산하면, 분산 Var(X) = E(X²) - {E(X)}² = λ가 됨을 확인할 수 있다.

평균과 분산이 같다는 이 특성은 실제 데이터를 포아송 분포로 모델링할 때 유용한 검증 도구가 된다. 관찰된 사건 횟수의 표본 평균과 표본 분산 값이 유사하다면, 해당 데이터가 포아송 분포를 따를 가능성이 높다고 판단할 수 있는 근거가 된다.

6. 누적분포함수(CDF)

포아송 분포의 누적분포함수는 확률변수 X가 특정 값 k 이하일 확률을 나타낸다. 즉, 단위 시간 또는 단위 공간 내에서 사건이 발생하는 횟수가 k회를 넘지 않을 확률을 계산하는 데 사용된다. 이는 확률질량함수를 0부터 k까지 합산한 값과 같다.

포아송 분포의 누적분포함수는 일반적으로 불완전 감마 함수를 이용하여 표현된다. 수식으로는 F(k; λ) = e^{-λ} Σ_{i=0}^{⌊k⌋} (λ^i / i!) = Γ(⌊k+1⌋, λ) / ⌊k⌋! 로 나타낼 수 있다. 여기서 Γ(⌊k+1⌋, λ)는 불완전 감마 함수를, ⌊k⌋는 최대 정수 함수를 의미한다. 이 함수는 이항 분포의 누적분포함수를 근사할 때도 유용하게 활용된다.

실제 계산에서는 주어진 모수 λ와 관심 있는 사건 횟수 k에 대해, 0부터 k까지의 각 확률질량함수 값을 더하여 누적확률을 구한다. 예를 들어, 평균 발생 횟수 λ가 2.4일 때, 4분 동안 2명 이하의 승객이 도착할 확률은 k=2를 대입하여 계산할 수 있다. 이러한 누적확률 계산은 신뢰 구간 설정이나 가설 검정과 같은 통계적 추론에서 중요한 역할을 한다.

누적분포함수의 성질로는 k가 증가함에 따라 함수값이 1에 수렴한다는 점이 있다. 이는 확률 분포의 기본적인 성질 중 하나이다. 또한, 이 함수를 통해 분위수를 구하거나, 난수 생성을 위한 역변환 샘플링 등에도 응용된다.

7. 적률생성함수

포아송 분포의 적률생성함수는 확률분포의 모든 적률을 생성하는 함수로, 확률변수의 기댓값과 분산 등을 효율적으로 계산하는 데 사용된다. 포아송 분포의 적률생성함수는 정의에 따라 기댓값 E(e^(tX))를 계산하여 유도할 수 있다.

적률생성함수 M_X(t)는 다음과 같이 구해진다.

M_X(t) = e^{λ(e^t - 1)}

이 결과는 포아송 분포의 확률질량함수를 적률생성함수의 정의식에 대입하고, 지수함수의 테일러 급수 전개를 활용하여 유도된다. 이 함수는 포아송 분포를 고유하게 결정하며, 이를 통해 분포의 여러 성질을 쉽게 얻을 수 있다.

이 적률생성함수를 이용하여 포아송 분포의 평균과 분산을 계산할 수 있다. 평균 E(X)는 적률생성함수를 한 번 미분한 후 t=0을 대입하여 구하며, 그 값은 λ이다. 분산 Var(X)는 적률생성함수를 두 번 미분하여 구한 E(X²) 값에서 {E(X)}²을 빼서 계산하며, 그 값 역시 λ로, 포아송 분포의 평균과 분산이 동일함을 확인할 수 있다.

적률생성함수는 또한 확률변수의 합성곱을 다룰 때 유용하다. 서로 독립인 포아송 확률변수들의 합은 다시 포아송 분포를 따르며, 그 모수는 각 모수의 합이 된다. 이 성질은 적률생성함수의 곱이 합의 적률생성함수가 된다는 사실로부터 쉽게 증명된다.

8. 확률질량함수(PMF)

포아송 분포의 확률질량함수는 이산 확률변수 X가 특정 값 x를 가질 확률을 정의한다. 이 함수는 단위 시간 또는 단위 공간 내에서 평균 λ번 발생하는 사건이 정확히 x번 발생할 확률을 제공한다. 포아송 분포의 확률질량함수는 다음과 같은 수식으로 표현된다.

P(X = x) = (λ^x * e^{-λ}) / x! (단, x = 0, 1, 2, ...)

여기서 λ는 단위 시간당 평균 발생 횟수를 나타내는 모수이며, e는 자연로그의 밑인 자연상수이다. x!은 x의 계승을 의미한다. 이 함수는 이항 분포에서 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작을 때, 그 극한으로부터 푸아송 극한 정리를 통해 유도된다. 확률질량함수의 값은 x가 증가함에 따라 초기에 증가하다가 최댓값을 찍은 후 감소하는 형태를 보인다.

확률질량함수의 정의역은 음이 아닌 정수(0, 1, 2, ...)로, 사건이 발생하는 횟수는 정수이기 때문이다. 이 함수의 총합은 1이 되어야 하며, 이는 지수 함수 e^λ의 테일러 급수 전개와 동일한 형태임을 통해 확인할 수 있다. 포아송 분포의 평균과 분산은 모두 λ로 동일하며, 이는 확률질량함수로부터 계산할 수 있다. 이 분포는 교통량 분석, 통신 시스템의 호출 횟수, 생물학의 돌연변이 발생 수 등 다양한 응용 분야에서 널리 사용된다.

포아송 분포

정의	단위시간 동안 혹은 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 확률분포
개발자/발명자	시메옹 드니 푸아송(Siméon Denis Poisson)
최초 등장	1837년
최초 등장 저서	『민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 관한 서문』
관련 분포	이항 분포
주요 매개변수	λ (람다)
상세 정보
이항 분포와의 관계	이항 분포에서 np = λ를 유지하면서 n → ∞일 때, 그 분포는 포아송 분포에 수렴한다. n과 p의 각각의 값은 모르지만 np = λ의 값은 알 때 푸아송 분포를 사용하여 이항 분포의 근사치를 알 수 있다.
적용 조건	주어진 시간 동안 일어나는 사건의 횟수는 다른 시간에서 일어나는 사건의 횟수와 독립이어야 한다. 주어진 시간을 더 짧은 단위로 나눴을 때, 그 짧은 시간 내에서 사건이 두 번 이상 발생할 확률은 무시할 만큼 매우 작아야 한다. 주어진 시간을 더 짧은 단위로 나눴을 때, 시간의 길이와 사건이 한 번 발생할 확률은 비례한다.
근사 조건	일반적으로, n ≥ 20이고 p ≤ 0.05이면 어느 정도 충분하고, n ≥ 100이고 np ≤ 10이면 매우 훌륭하다고 여겨진다.
평균과 분산	λ는 곧 푸아송 분포의 평균과 분산이 된다.