이산확률변수
1. 개요
1. 개요
이산확률변수는 확률 변수가 취할 수 있는 값이 유한개이거나 자연수와 일대일 대응이 가능한 셀 수 있는 경우를 말한다. 이는 확률론과 수리통계학의 핵심 개념 중 하나로, 주로 개수를 세는 상황에서 나타난다. 예를 들어, 동전을 여러 번 던져 앞면이 나오는 횟수나 주사위를 굴려 나온 눈의 수는 이산확률변수에 해당한다. 이러한 변수는 확률질량함수를 통해 그 특성을 기술하며, 대표적인 분포로는 이항분포와 푸아송분포 등이 있다.
이산확률변수는 연속확률변수와 대비되는 개념이다. 연속확률변수가 어떤 구간 내의 모든 실수값을 취할 수 있는 반면, 이산확률변수는 뚜렷이 구분된 값만을 가진다. 따라서 이산확률변수의 확률은 특정 값이 정확히 일어날 확률, 즉 P(X=x)의 형태로 의미 있게 정의될 수 있다. 이는 연속확률변수에서 특정 한 점의 확률이 거의 0인 것과는 본질적으로 다른 특징이다.
이산확률변수의 분석에는 기댓값과 분산이 중요한 도구로 사용된다. 기댓값은 확률변수의 평균적인 값을, 분산은 값들이 평균에서 얼마나 퍼져 있는지를 나타낸다. 이러한 개념들은 통계적 추론과 데이터 분석의 기초를 이룬다. 이산확률변수의 이론은 의학 연구, 품질 관리, 게임 이론, 알고리즘 분석 등 다양한 분야에서 실제 문제를 모델링하고 해결하는 데 널리 응용된다.
2. 정의
2. 정의
이산확률변수는 확률 변수가 취할 수 있는 값이 유한개이거나 자연수의 부분집합과 일대일 대응이 가능한, 즉 셀 수 있는 경우를 말한다. 이는 확률론과 수리통계학의 핵심 개념으로, 주로 개수나 횟수와 같이 이산적인 결과를 모델링하는 데 사용된다. 이러한 변수의 확률적 성질은 확률질량함수를 통해 기술된다.
이산확률변수의 대표적인 예로는 동전을 여러 번 던져 앞면이 나오는 횟수, 주사위를 굴려 나온 눈의 수, 특정 기간 내에 고객센터에 걸려오는 전화의 수 등이 있다. 이러한 예들은 모두 가능한 결과값이 0, 1, 2, ...와 같이 뚜렷이 구분되어 셀 수 있다는 공통점을 가진다. 이와 대비되어 모든 실수 값을 취할 수 있는 변수는 연속확률변수라고 한다.
이산확률변수를 다루는 주요 확률 분포에는 이항분포, 푸아송분포, 기하분포, 초기하분포 등이 있다. 각 분포는 서로 다른 실험 조건과 상황을 모델링한다. 예를 들어, 이항분포는 독립적인 시행에서 성공 횟수를, 푸아송분포는 단위 시간 또는 공간 내에서 발생하는 사건의 횟수를 설명한다.
3. 확률질량함수
3. 확률질량함수
확률질량함수는 이산확률변수가 특정한 값을 가질 확률을 나타내는 함수이다. 이산확률변수는 셀 수 있는 유한개 또는 가산 무한개의 값을 취할 수 있으므로, 각각의 값에 대해 확률을 직접 부여할 수 있다. 확률질량함수는 이러한 확률을 체계적으로 표현하는 도구로, 확률론과 수리통계학의 기본 개념이다.
일반적으로 확률변수 X에 대한 확률질량함수는 p(x) = P(X = x)로 정의된다. 이 함수는 모든 가능한 값 x에 대해 0 이상의 확률값을 가지며, 모든 확률값의 합은 1이 되어야 한다는 조건을 만족한다. 이는 확률의 기본 공리 중 하나인 총합이 1이어야 한다는 규칙에 기반한다. 확률질량함수를 통해 이항분포, 푸아송분포, 기하분포 등 다양한 이산확률분포를 정의하고 분석할 수 있다.
확률질량함수는 연속확률변수에서 사용되는 확률밀도함수와 대비되는 개념이다. 가장 큰 차이는 확률질량함수는 점 확률을 직접 다루는 반면, 확률밀도함수는 특정 점에서의 값이 아닌 구간 적분을 통해 확률을 계산한다는 점이다. 따라서 이산확률변수의 확률은 확률질량함수의 값을 단순 합산하여 구할 수 있어 계산이 상대적으로 직관적이다.
이 함수는 기댓값과 분산을 계산하는 데 필수적이다. 확률변수의 기댓값 E(X)는 각 값과 그 확률의 곱을 모두 더한 값, 즉 Σ x * p(x)로 정의된다. 마찬가지로 분산 및 다른 모멘트도 확률질량함수를 기반으로 계산되며, 이를 통해 확률분포의 중심 경향성과 퍼짐 정도를 수치적으로 파악할 수 있다.
4. 기댓값과 분산
4. 기댓값과 분산
이산확률변수의 기댓값은 확률변수가 취할 수 있는 각 값에 그 값이 나올 확률을 곱한 것들의 합으로 정의된다. 이는 확률변수의 평균적인 값을 나타내는 척도이다. 예를 들어, 주사위를 던져 나오는 눈의 수를 확률변수 X라고 할 때, 기댓값 E(X)는 1부터 6까지 각 눈의 값에 확률 1/6을 곱한 후 모두 더한 값, 즉 3.5가 된다. 기댓값은 확률변수의 중심 경향을 요약하는 중요한 특성값이다.
분산은 확률변수의 값들이 기댓값으로부터 얼마나 흩어져 있는지를 측정하는 지표이다. 구체적으로, 각 가능한 값과 기댓값의 차이를 제곱한 후, 그 제곱값에 각 값의 확률을 곱하여 모두 더한 값으로 계산된다. 분산이 클수록 데이터는 평균으로부터 넓게 퍼져 있음을 의미한다. 분산의 양의 제곱근을 표준편차라고 하며, 이는 원래 변수와 같은 단위를 가지는 흩어짐의 척도로 자주 사용된다.
기댓값과 분산은 확률질량함수를 통해 직접 계산할 수 있다. 이산확률변수 X의 확률질량함수가 p(x)일 때, 기댓값 E(X)는 Σ x·p(x)로, 분산 Var(X)는 Σ (x - E(X))²·p(x)로 구한다. 이 계산법은 이항분포, 푸아송분포, 기하분포 등 모든 이산확률분포에 적용되는 기본 공식이다.
5. 대표적인 이산확률분포
5. 대표적인 이산확률분포
5.1. 이항분포
5.1. 이항분포
이항분포는 이산확률분포 중 가장 대표적인 분포 중 하나이다. 이 분포는 특정 시행을 독립적으로 반복할 때, 성공 횟수를 나타내는 확률변수가 따르는 분포를 의미한다. 여기서 각 시행은 오직 두 가지 결과, 즉 '성공' 또는 '실패'만을 가진다. 이러한 실험을 베르누이 시행이라고 하며, 이항분포는 이러한 베르누이 시행을 여러 번 반복하는 실험의 모델이다.
이항분포의 확률은 두 가지 매개변수로 정의된다. 하나는 시행 횟수 n이고, 다른 하나는 각 시행에서 성공할 확률 p이다. 예를 들어, 공정한 동전을 10번 던져 앞면이 나오는 횟수는 n=10, p=0.5인 이항분포를 따른다. 확률질량함수를 사용하면, 정확히 k번 성공할 확률을 계산할 수 있다. 이는 n번의 시행 중 k번 성공하는 조합의 수에, 성공 확률 p의 k제곱과 실패 확률 (1-p)의 (n-k)제곱을 곱한 값이다.
이항분포의 기댓값은 시행 횟수와 성공 확률의 곱인 np이다. 분산은 np(1-p)로 계산된다. 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작은 경우, 이항분포는 푸아송분포로 근사할 수 있다. 반대로 n이 크고 p가 0이나 1에 지나치게 치우치지 않으면, 정규분포로 근사하는 것이 가능하다. 이항분포는 품질 관리, 의학 연구, 여론 조사 등 다양한 분야에서 유용하게 적용된다.
5.2. 푸아송분포
5.2. 푸아송분포
푸아송분포는 단위 시간 또는 단위 공간 내에서 발생하는 드문 사건의 횟수를 모델링하는 이산확률분포이다. 주어진 시간 간격 안에 어떤 사건이 발생하는 횟수가 푸아송 과정을 따를 때, 그 횟수를 나타내는 확률변수가 따른다. 이 분포는 시메옹 드니 푸아송의 이름을 따서 명명되었다.
푸아송분포의 확률질량함수는 평균 발생 횟수를 나타내는 매개변수 λ(람다) 하나로 정의된다. 구체적으로, 확률변수 X가 평균 λ인 푸아송분포를 따를 때, k번 발생할 확률은 P(X=k) = (λ^k * e^{-λ}) / k! 로 계산된다. 여기서 e는 자연상수이며, k!은 계승을 의미한다. 이 분포의 기댓값과 분산은 모두 λ로 동일하다는 특징을 가진다.
이 분포는 이항분포와 밀접한 관련이 있다. 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작아, 평균 np = λ가 일정하게 유지될 때, 이항분포는 푸아송분포로 근사된다. 따라서 전화 교환대에 걸려오는 통화 횟수, 웹사이트 방문자 수, 특정 지역에서의 교통사고 건수, 제조 공정에서의 불량품 발생 수 등 '드물지만 많은 기회'가 있는 사건을 분석하는 데 널리 활용된다.
5.3. 기하분포
5.3. 기하분포
기하분포는 이산확률변수의 대표적인 확률분포 중 하나로, 어떤 사건이 처음으로 성공할 때까지 필요한 시행 횟수를 모델링한다. 각 시행은 베르누이 시행으로 가정하며, 즉 각 시행은 성공 또는 실패의 두 가지 결과만을 가지며, 각 시행의 성공 확률은 p로 일정하고 시행들은 서로 독립적이다. 기하분포는 '처음 성공할 때까지의 시행 횟수'를 다루므로, 그 응용 범위는 첫 번째 결함 발견까지 검사한 제품 수, 첫 번째 고객 유치까지 걸린 전화 횟수 등 다양한 분야에 걸쳐 있다.
기하분포의 확률질량함수는 P(X = k) = (1-p)^(k-1) * p 로 정의된다. 여기서 확률변수 X는 첫 번째 성공이 발생하는 시행의 횟수를 나타내며, k는 1, 2, 3,...의 값을 가진다. 이 공식은 (k-1)번 연속으로 실패한 후 k번째 시행에서 성공할 확률을 계산한다. 기하분포의 기댓값은 1/p이며, 분산은 (1-p)/p^2이다. 이는 성공 확률 p가 낮을수록 첫 성공까지 평균적으로 더 많은 시행이 필요함을 의미한다.
기하분포는 무기억성이라는 독특한 성질을 가진다. 이는 과거의 실패 횟수가 앞으로의 시행 결과에 영향을 주지 않음을 의미한다. 예를 들어, 이미 여러 번 실패했더라도 다음 시행에서 성공할 확률은 여전히 p로 동일하다. 이 성질 때문에 기하분포는 지수분포와 유사한 특성을 공유하며, 지수분포는 연속확률변수 중에서 무기억성을 가지는 대표적인 분포이다.
기하분포는 이항분포나 푸아송분포와 함께 이산형 분포의 기초를 이루지만, 그 응용의 초점은 명확히 다르다. 이항분포는 고정된 횟수의 시행에서의 성공 횟수를, 푸아송분포는 단위 시간 내 발생 횟수를 다루는 반면, 기하분포는 첫 번째 성공까지의 대기 시간에 주목한다. 이는 품질 관리, 위험 분석, 게임 이론 등에서 유용하게 활용된다.
5.4. 초기하분포
5.4. 초기하분포
초기하분포는 유한한 모집단에서 비복원추출을 할 때 특정 속성을 가진 원소의 개수를 모델링하는 이산확률분포이다. 이항분포가 각 시행이 독립적일 때(복원추출) 성공 횟수를 나타낸다면, 초기하분포는 시행이 종속적일 때(비복원추출)의 상황을 다룬다. 예를 들어, 불량품이 섞인 제품 로트에서 무작위로 몇 개를 뽑아 검사할 때 발견되는 불량품의 수, 또는 특정 정치 성향의 유권자들이 섞인 지역에서 무작위로 몇 명을 추출하여 여론조사를 할 때 특정 후보를 지지하는 응답자의 수 등을 설명하는 데 사용된다.
초기하분포의 확률질량함수는 세 가지 모수에 의해 정의된다: 모집단의 크기 $N$, 모집단 내 '성공'으로 정의된 원소의 수 $K$, 그리고 추출할 표본의 크기 $n$이다. $X$를 $n$번의 비복원추출 중 얻은 성공의 횟수라는 확률변수라고 하면, 그 확률은 조합론을 이용해 $P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$ 로 계산된다. 여기서 $k$는 가능한 성공 횟수이며, 그 범위는 $\max(0, n - (N-K))$부터 $\min(n, K)$까지이다.
이 분포의 기댓값은 $E[X] = n \cdot \frac{K}{N}$으로, 표본 크기에 모집단 내 성공 비율을 곱한 형태를 가진다. 이는 직관적으로 이해할 수 있는 값이다. 분산은 $Var(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N-n}{N-1}$이다. 분산 공식에서 마지막 항 $\frac{N-n}{N-1}$은 유한모집단수정계수로, 비복원추출로 인한 종속성이 분산을 줄이는 효과를 반영한다. 모집단 크기 $N$이 표본 크기 $n$에 비해 매우 크다면, 초기하분포는 이항분포에 근사하게 된다.
초기하분포는 품질관리, 생물학, 유전학, 심리검사 등 표본추출이 비복원 방식으로 이루어지는 다양한 분야에서 응용된다. 특히 로트 샘플링 검사에서 불량률을 추정하거나, 생태학에서 포획-재포획 방법으로 개체군 크기를 추정할 때 중요한 역할을 한다.
6. 연속확률변수와의 차이
6. 연속확률변수와의 차이
이산확률변수와 연속확률변수는 확률 변수의 두 가지 기본적인 유형으로, 그 값의 특성과 확률을 계산하는 방식에서 근본적인 차이를 보인다.
가장 핵심적인 차이는 확률 변수가 취할 수 있는 값의 종류에 있다. 이산확률변수는 셀 수 있는(countable) 값만을 가진다. 예를 들어, 주사위를 던져 나오는 눈의 수, 일정 기간 내 고객 센터에 걸려오는 전화 횟수, 불량품의 개수 등이 이에 해당한다. 이러한 값들은 유한하거나 자연수와 일대일 대응이 가능하다. 반면, 연속확률변수는 어떤 구간 내의 모든 실수 값을 취할 수 있다. 사람의 키나 몸무게, 전구의 수명, 버스의 대기 시간 등이 대표적인 예시로, 이 값들은 측정 정밀도에 따라 무한히 많은 값을 가질 수 있다.
이러한 값의 특성 차이는 확률을 계산하는 함수와 방식에 직접적인 영향을 미친다. 이산확률변수는 확률질량함수(PMF)를 사용하여 특정 값이 나올 확률, 예를 들어 P(X=3)과 같이 정확한 값을 계산할 수 있다. 반면, 연속확률변수는 확률밀도함수(PDF)를 사용하며, 단일한 점에서의 확률은 항상 0이다. 대신 확률은 특정 구간에서 확률밀도함수를 적분하여 구한다. 즉, P(a ≤ X ≤ b)와 같이 구간에 대한 확률만 의미를 가진다. 이는 정확히 180.000... cm인 사람을 찾는 확률은 0에 가깝지만, 179.5cm에서 180.5cm 사이의 사람을 찾는 확률은 계산 가능한 것과 같은 이치이다.
누적분포함수의 관점에서도 차이가 나타난다. 이산확률변수의 누적분포함수(CDF)는 계단 함수 형태를 띠는 반면, 연속확률변수의 누적분포함수는 연속적인 곡선으로 표현된다. 이러한 구분은 통계학의 이론적 기반을 이루지만, 실제 응용에서는 두 유형을 혼합한 혼합확률변수나 보다 일반적인 측도론적 접근도 존재한다.
