문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

포아송 분포 | |
정의 | 단위시간 동안 혹은 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 확률분포 |
개발자/발명자 | 시메옹 드니 푸아송(Siméon Denis Poisson) |
최초 등장 | 1837년 |
최초 등장 저서 | 『민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 관한 서문』 |
관련 분포 | 이항 분포 |
주요 매개변수 | λ (람다) |
상세 정보 | |
이항 분포와의 관계 | 이항 분포에서 np = λ를 유지하면서 n → ∞일 때, 그 분포는 포아송 분포에 수렴한다. n과 p의 각각의 값은 모르지만 np = λ의 값은 알 때 푸아송 분포를 사용하여 이항 분포의 근사치를 알 수 있다. |
적용 조건 | 주어진 시간 동안 일어나는 사건의 횟수는 다른 시간에서 일어나는 사건의 횟수와 독립이어야 한다. 주어진 시간을 더 짧은 단위로 나눴을 때, 그 짧은 시간 내에서 사건이 두 번 이상 발생할 확률은 무시할 만큼 매우 작아야 한다. 주어진 시간을 더 짧은 단위로 나눴을 때, 시간의 길이와 사건이 한 번 발생할 확률은 비례한다. |
근사 조건 | 일반적으로, n ≥ 20이고 p ≤ 0.05이면 어느 정도 충분하고, n ≥ 100이고 np ≤ 10이면 매우 훌륭하다고 여겨진다. |
평균과 분산 | λ는 곧 푸아송 분포의 평균과 분산이 된다. |

포아송 분포는 단위시간 동안 또는 단위공간에서 어떤 사건이 발생하는 횟수를 나타내는 이산 확률 분포이다. 프랑스의 수학자 시메옹 드니 푸아송이 1837년 자신의 저서 『민사 사건과 형사 사건 재판에서의 확률에 관한 연구 및 일반적인 확률 계산 법칙에 관한 서문』에서 처음 소개하였다.
이 분포는 이항 분포의 특수한 경우로 볼 수 있다. 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작아, 평균 발생 횟수 λ = n p 가 유한한 값을 유지할 때, 이항 분포는 포아송 분포로 근사된다. 이 관계는 푸아송 극한 정리로 설명된다. 따라서 사건의 총 시행 횟수 n과 개별 성공 확률 p를 정확히 알지 못하더라도, 단위 구간 내 평균 발생 횟수 λ만 알면 사건 발생 횟수의 확률을 계산하는 데 유용하게 적용할 수 있다.
포아송 분포의 주요 매개변수는 λ(람다)이며, 이는 단위 시간 또는 공간 내에서 평균적으로 발생하는 사건의 횟수를 의미한다. 주목할 만한 특징은 포아송 분포의 평균과 분산이 모두 λ로 동일하다는 점이다. 이 분포는 교통량 분석, 통신 시스템의 호 발생, 생물학의 돌연변이 수 세기, 금융에서의 위험 사건 모델링 등 다양한 분야에서 희귀 사건의 발생 빈도를 모델링하는 데 널리 사용된다.

포아송 분포를 적용하기 위해서는 세 가지 기본 조건이 충족되어야 한다. 첫째, 사건의 발생은 독립적이어야 한다. 즉, 어떤 시간 구간에서 사건이 발생한 횟수는 다른 시간 구간에서의 발생 횟수에 영향을 주지 않아야 한다. 둘째, 매우 짧은 시간 동안 두 번 이상의 사건이 발생할 확률은 거의 0에 가까워야 한다. 셋째, 짧은 시간 구간에서 사건이 한 번 발생할 확률은 그 구간의 길이에 비례해야 한다.
이러한 조건들은 포아송 분포가 이항 분포의 특수한 극한 형태로 유도될 수 있는 근거가 된다. 구체적으로, 시행 횟수 n이 매우 크고 각 시행에서 사건이 발생할 확률 p가 매우 작아, 평균 발생 횟수인 λ = n p 가 유한한 값을 유지할 때, 이항 분포는 포아송 분포로 근사된다. 통계적 실무에서는 일반적으로 n ≥ 100 이고 n p ≤ 10 일 때, 또는 n ≥ 20 이고 p ≤ 0.05 일 때 포아송 근사가 유효한 것으로 간주한다.
이 조건들은 현실 세계의 다양한 현상을 모델링하는 데 적용된다. 예를 들어, 단위 시간당 콜센터에 걸려오는 전화 횟수, 특정 교차로에서 발생하는 교통사고 건수, 또는 방사성 물질이 단위 시간 동안 방출하는 입자 수 등을 분석할 때 포아송 분포가 사용될 수 있다. 이러한 현상들은 각 사건이 독립적으로 발생하고, 극히 짧은 순간에 중복 발생할 가능성이 매우 낮다는 특징을 공유한다.

포아송 분포는 이항 분포의 특수한 극한 형태로부터 유도된다. 이항 분포에서 시행 횟수 n이 무한대로 커지고, 각 시행에서 성공 확률 p가 0에 가까워지지만, 그 기댓값인 np가 일정한 값 λ로 수렴할 때, 이항 분포의 확률 질량 함수는 포아송 분포의 형태로 근사된다. 이 관계를 설명하는 정리를 푸아송 극한 정리라고 한다.
구체적인 유도 과정은 다음과 같다. 이항 분포의 확률 질량 함수는 Pr(X=x) = n!/((n-x)! x!) * p^x * (1-p)^(n-x)이다. 여기서 p = λ/n으로 치환하고, n이 무한대로 가는 극한을 취한다. 이때, (1 - λ/n)^n 항은 자연상수 e의 정의에 따라 e^(-λ)로 수렴하며, 다른 항들도 정리하면 최종적으로 Pr(X=x) = (λ^x * e^(-λ)) / x! 이라는 포아송 분포의 확률 질량 함수를 얻는다.
이 유도 과정은 포아송 분포가 이항 분포의 특별한 근사임을 보여준다. 즉, 시행 횟수가 매우 많지만 각 시행에서 사건이 발생할 확률이 매우 작은 희귀 사건을 모델링할 때 유용하다. 이는 큰 수의 법칙과 중심극한정리와 함께 확률론의 중요한 극한 정리 중 하나에 해당한다.

포아송 분포는 단위시간이나 단위공간에서 발생하는 사건의 횟수를 모델링하는 데 널리 사용된다. 대표적인 예로는 특정 시간 동안 콜센터에 걸려오는 전화 횟수, 교차로에서 일정 시간 내에 통과하는 차량의 수, 또는 책 한 페이지당 발견되는 오타의 개수 등을 들 수 있다. 이러한 사건들은 드물게 발생하지만, 많은 기회가 주어지는 상황에서 이항 분포의 특별한 경우로 근사될 수 있다.
구체적인 예를 살펴보면, 한 병원의 응급실이 시간당 평균 4건의 환자를 받는다고 가정해 보자. 이때 포아송 분포를 적용하여 다음 한 시간 동안 정확히 2명의 환자가 도착할 확률을 계산할 수 있다. 여기서 평균 발생 횟수 λ는 4이며, 사건 발생 횟수 x는 2가 된다. 확률질량함수 공식에 대입하면, 그 확률은 (4² * e⁻⁴) / 2! 로 계산된다.
또 다른 예로, 한 제조 공장에서 생산되는 반도체 칩 1000개당 평균 2개의 불량품이 발견된다고 하자. 이 경우, 임의로 선택한 한 개의 칩을 검사했을 때 불량품이 하나도 없을 확률을 구하는 문제에 포아송 분포를 활용할 수 있다. 단위를 "칩 1개"로 설정하면, λ는 0.002가 되며, x=0을 대입하여 확률을 근사적으로 구한다. 이는 품질 관리 분야에서 흔히 응용되는 사례이다.
이러한 예제들은 포아송 분포가 통계학, 공학, 생물학, 보험 수리학 등 다양한 분야에서 유용한 도구임을 보여준다. 특히 사건 발생이 독립적이고, 희귀하며, 평균 발생률이 알려진 확률 과정을 분석하는 데 적합하다.

포아송 분포의 평균과 분산은 모두 모수 λ와 같다. 이는 포아송 분포가 이항 분포의 극한 형태로 유도된다는 점에서 이해할 수 있다. 이항 분포의 평균은 np이고, 포아송 분포로의 근사 조건인 n → ∞, p → 0, np → λ에 따라, 평균은 λ로 수렴한다.
분산 또한 같은 값을 가진다. 이항 분포의 분산 공식은 np(1-p)이다. 여기서 p가 0에 매우 가까워지면 (1-p)는 1에 가까워지므로, 분산 np(1-p)는 np, 즉 λ에 근사하게 된다. 따라서 포아송 분포에서는 평균과 분산이 동일한 λ 값을 갖는 독특한 특성을 보인다.
이 성질은 적률생성함수를 이용하여 엄밀하게 증명할 수 있다. 포아송 분포의 적률생성함수는 e^{λ(e^t - 1)}의 형태를 가지며, 이를 한 번과 두 번 미분한 후 t=0을 대입하여 구한 기댓값 E(X)와 E(X²)를 계산하면, 분산 Var(X) = E(X²) - {E(X)}² = λ가 됨을 확인할 수 있다.
평균과 분산이 같다는 이 특성은 실제 데이터를 포아송 분포로 모델링할 때 유용한 검증 도구가 된다. 관찰된 사건 횟수의 표본 평균과 표본 분산 값이 유사하다면, 해당 데이터가 포아송 분포를 따를 가능성이 높다고 판단할 수 있는 근거가 된다.

포아송 분포의 누적분포함수는 확률변수 X가 특정 값 k 이하일 확률을 나타낸다. 즉, 단위 시간 또는 단위 공간 내에서 사건이 발생하는 횟수가 k회를 넘지 않을 확률을 계산하는 데 사용된다. 이는 확률질량함수를 0부터 k까지 합산한 값과 같다.
포아송 분포의 누적분포함수는 일반적으로 불완전 감마 함수를 이용하여 표현된다. 수식으로는 F(k; λ) = e^{-λ} Σ_{i=0}^{⌊k⌋} (λ^i / i!) = Γ(⌊k+1⌋, λ) / ⌊k⌋! 로 나타낼 수 있다. 여기서 Γ(⌊k+1⌋, λ)는 불완전 감마 함수를, ⌊k⌋는 최대 정수 함수를 의미한다. 이 함수는 이항 분포의 누적분포함수를 근사할 때도 유용하게 활용된다.
실제 계산에서는 주어진 모수 λ와 관심 있는 사건 횟수 k에 대해, 0부터 k까지의 각 확률질량함수 값을 더하여 누적확률을 구한다. 예를 들어, 평균 발생 횟수 λ가 2.4일 때, 4분 동안 2명 이하의 승객이 도착할 확률은 k=2를 대입하여 계산할 수 있다. 이러한 누적확률 계산은 신뢰 구간 설정이나 가설 검정과 같은 통계적 추론에서 중요한 역할을 한다.
누적분포함수의 성질로는 k가 증가함에 따라 함수값이 1에 수렴한다는 점이 있다. 이는 확률 분포의 기본적인 성질 중 하나이다. 또한, 이 함수를 통해 분위수를 구하거나, 난수 생성을 위한 역변환 샘플링 등에도 응용된다.

포아송 분포의 적률생성함수는 확률분포의 모든 적률을 생성하는 함수로, 확률변수의 기댓값과 분산 등을 효율적으로 계산하는 데 사용된다. 포아송 분포의 적률생성함수는 정의에 따라 기댓값 E(e^(tX))를 계산하여 유도할 수 있다.
적률생성함수 M_X(t)는 다음과 같이 구해진다.
M_X(t) = e^{λ(e^t - 1)}
이 결과는 포아송 분포의 확률질량함수를 적률생성함수의 정의식에 대입하고, 지수함수의 테일러 급수 전개를 활용하여 유도된다. 이 함수는 포아송 분포를 고유하게 결정하며, 이를 통해 분포의 여러 성질을 쉽게 얻을 수 있다.
이 적률생성함수를 이용하여 포아송 분포의 평균과 분산을 계산할 수 있다. 평균 E(X)는 적률생성함수를 한 번 미분한 후 t=0을 대입하여 구하며, 그 값은 λ이다. 분산 Var(X)는 적률생성함수를 두 번 미분하여 구한 E(X²) 값에서 {E(X)}²을 빼서 계산하며, 그 값 역시 λ로, 포아송 분포의 평균과 분산이 동일함을 확인할 수 있다.
적률생성함수는 또한 확률변수의 합성곱을 다룰 때 유용하다. 서로 독립인 포아송 확률변수들의 합은 다시 포아송 분포를 따르며, 그 모수는 각 모수의 합이 된다. 이 성질은 적률생성함수의 곱이 합의 적률생성함수가 된다는 사실로부터 쉽게 증명된다.

포아송 분포의 확률질량함수는 이산 확률변수 X가 특정 값 x를 가질 확률을 정의한다. 이 함수는 단위 시간 또는 단위 공간 내에서 평균 λ번 발생하는 사건이 정확히 x번 발생할 확률을 제공한다. 포아송 분포의 확률질량함수는 다음과 같은 수식으로 표현된다.
P(X = x) = (λ^x * e^{-λ}) / x! (단, x = 0, 1, 2, ...)
여기서 λ는 단위 시간당 평균 발생 횟수를 나타내는 모수이며, e는 자연로그의 밑인 자연상수이다. x!은 x의 계승을 의미한다. 이 함수는 이항 분포에서 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작을 때, 그 극한으로부터 푸아송 극한 정리를 통해 유도된다. 확률질량함수의 값은 x가 증가함에 따라 초기에 증가하다가 최댓값을 찍은 후 감소하는 형태를 보인다.
확률질량함수의 정의역은 음이 아닌 정수(0, 1, 2, ...)로, 사건이 발생하는 횟수는 정수이기 때문이다. 이 함수의 총합은 1이 되어야 하며, 이는 지수 함수 e^λ의 테일러 급수 전개와 동일한 형태임을 통해 확인할 수 있다. 포아송 분포의 평균과 분산은 모두 λ로 동일하며, 이는 확률질량함수로부터 계산할 수 있다. 이 분포는 교통량 분석, 통신 시스템의 호출 횟수, 생물학의 돌연변이 발생 수 등 다양한 응용 분야에서 널리 사용된다.
