확률질량함수
1. 개요
1. 개요
확률질량함수는 이산 확률 변수를 나타내는 확률 함수이다. 이 함수는 특정한 값이 발생할 확률을 직접적으로 할당하는 역할을 한다. 확률론과 통계학에서 기본적인 개념으로, 이항 분포나 푸아송 분포와 같은 이산형 확률 분포를 기술하는 데 핵심적으로 사용된다.
수학적으로 확률질량함수는 f_X(x) = P(X = x)로 표현되며, 이는 확률 변수 X가 정확히 x라는 값을 가질 확률을 의미한다. 이산 확률 변수의 경우, 가능한 모든 값에 대한 확률의 합은 1이 되어야 한다는 조건을 만족한다. 이러한 특성은 확률의 공리와 직접적으로 연결된다.
이 개념은 후속적으로 연속 확률 변수를 다루는 확률 밀도 함수(PDF)로 일반화된다. 또한, 확률질량함수와 밀접하게 연관된 또 다른 중요한 함수로 누적분포함수(CDF)가 있으며, 이는 확률 변수가 특정 값 이하일 확률을 제공한다.
2. 정의
2. 정의
확률질량함수는 이산 확률 변수를 나타내는 확률 함수이다. 이산 확률 변수는 셀 수 있는 유한 개 또는 무한 개의 값을 취하는 변수를 의미하며, 확률질량함수는 이 변수가 특정한 값을 가질 확률을 정확하게 정의한다.
수학적으로, 확률질량함수는 $f_X(x) = P(X = x)$로 표현된다. 이는 확률 변수 $X$가 정확히 $x$라는 값을 가질 확률을 의미한다. 확률질량함수의 핵심 성질은 모든 가능한 $x$ 값에 대한 확률의 합이 1이어야 한다는 점이다. 대표적인 예로 이항 분포와 푸아송 분포가 있다.
이 개념은 연속 확률 변수를 다루는 확률 밀도 함수(PDF)와 대비된다. 확률질량함수는 이산적인 값들에 대한 확률을 직접 부여하는 반면, 확률 밀도 함수는 특정 구간에서의 확률을 적분을 통해 계산한다. 또한, 확률질량함수를 누적하여 누적분포함수(CDF)를 정의할 수 있으며, 이는 확률 변수가 특정 값 이하일 확률을 나타낸다.
3. 베르누이 시행과 이항 분포
3. 베르누이 시행과 이항 분포
3.1. PMF 형태
3.1. PMF 형태
이항 분포의 확률질량함수 형태는 특정한 확률 구조를 가진다. 베르누이 시행을 독립적으로 반복할 때, 성공 횟수라는 이산 확률 변수가 특정 값을 가질 확률을 계산하는 공식이다. 이 공식은 시행 횟수, 성공 확률, 그리고 관심 있는 성공 횟수라는 세 가지 요소에 의해 결정된다.
구체적으로, 시행 횟수를 n, 각 시행의 성공 확률을 p, 그리고 성공 횟수를 x라고 할 때, 확률질량함수는 P(X = x) = C(n, x) * p^x * (1-p)^(n-x)의 형태를 가진다. 여기서 C(n, x)는 조합을 나타내며, n번의 시행 중 x번의 성공이 발생할 수 있는 모든 경우의 수를 의미한다. p^x * (1-p)^(n-x) 항은 하나의 특정한 성공-실패 패턴이 발생할 확률을 나타낸다.
이 공식은 이항 분포의 핵심 정의이며, 통계학에서 가장 기본적이고 널리 사용되는 확률 모델 중 하나를 제공한다. 이 형태는 푸아송 분포나 정규 분포로의 근사적 관계를 이해하는 기초가 되기도 한다.
3.2. 로그 및 지수 표현
3.2. 로그 및 지수 표현
이항 분포의 확률질량함수는 로그 변환을 통해 계산상의 이점을 얻거나 근사 분석을 수행할 수 있다. 확률질량함수 자체는 곱셈 형태로 표현되지만, 로그를 취하면 덧셈 형태로 단순화되어 수치적 안정성을 높이고 계산을 용이하게 한다. 특히 큰 수 n에 대한 계산이나 최적화 문제에서 로그 우도 함수를 사용하는 것이 일반적이다.
또한, 이항 분포의 확률질량함수에 스털링 근사를 적용하면 로그 표현을 통해 정규 분포로의 근사를 유도할 수 있다. 이 과정에서 평균 np와 분산 np(1-p)를 매개변수로 하는 정규 분포의 확률밀도함수 형태가 나타난다. 이는 중심극한정리의 한 예로, n이 충분히 클 때 이항 분포가 정규 분포에 근사한다는 사실을 수학적으로 보여준다.
이러한 로그 및 지수 표현은 통계적 추정, 가설 검정, 그리고 기계학습의 다양한 모델에서 로그 우도 함수를 최대화하는 최대우도추정법 등에 널리 활용된다. 복잡한 확률 모델을 다룰 때 곱셈 대신 덧셈으로 문제를 변환하는 이 기법은 계산 효율성과 이론적 분석 모두에 기여한다.
4. 푸아송 분포
4. 푸아송 분포
푸아송 분포는 단위 시간 또는 단위 공간 내에서 발생하는 희귀 사건의 횟수를 모델링하는 이산 확률 분포이다. 이 분포는 이항 분포의 특수한 경우로, 시행 횟수 n이 매우 크고 성공 확률 p가 매우 작을 때 이항 분포를 근사하는 데 사용된다. 푸아송 분포의 확률질량함수는 다음과 같은 형태를 가진다.
푸아송 분포의 확률질량함수는 매개변수 λ(람다)에 의해 결정되며, λ는 단위 시간당 평균 발생 횟수를 의미한다. 이 함수는 이산 확률 변수 X가 특정 값 x를 가질 확률을 계산하는 데 사용된다. 푸아송 분포는 전화 교환기의 통화 횟수, 방사성 물질의 붕괴 횟수, 웹사이트 방문자 수 등 다양한 통계적 모델링에 널리 적용된다.
푸아송 분포는 이항 분포에서 n이 무한대로 가고 p가 0에 가까워질 때, np = λ가 일정하게 유지되는 조건에서 유도될 수 있다. 이 근사 관계는 큰 수의 법칙과 중심극한정리와도 연결되어 있다. 또한, 푸아송 분포의 확률질량함수는 특정 조건 하에서 정규 분포와 같은 연속 확률 변수의 확률 밀도 함수로 근사될 수 있다는 점에서도 중요하다.
5. 확률밀도함수(PDF)와의 관계
5. 확률밀도함수(PDF)와의 관계
확률질량함수는 이산 확률 변수를 기술하는 함수이다. 이는 변수가 특정한 값을 가질 확률을 직접적으로 나타낸다. 반면 연속 확률 변수는 특정한 한 점에서의 확률이 0이므로, 확률질량함수와 같은 방식으로 정의할 수 없다. 대신 연속 확률 변수는 확률밀도함수(PDF)를 사용하여 그 분포를 기술한다.
확률밀도함수는 어떤 구간에 속할 확률을 밀도로 표현한다. 즉, 확률밀도함수를 특정 구간에서 적분함으로써 해당 구간에 속할 확률을 얻는다. 이는 확률질량함수가 각 점에서의 확률값을 직접 합산하는 것과 대비된다. 이항 분포나 푸아송 분포와 같은 이산 분포의 확률질량함수는, 시행 횟수가 매우 커지거나 평균 발생 횟수가 커질 때, 그 형태가 연속적인 정규 분포의 확률밀도함수에 근사한다. 이는 중심극한정리와 관련된 현상이다.
따라서 확률질량함수와 확률밀도함수는 각각 이산과 연속이라는 서로 다른 확률 변수의 세계를 기술하는 핵심 도구이다. 두 함수 모두 누적분포함수(CDF)와 밀접한 관계를 가지며, CDF는 확률질량함수의 누적 합 또는 확률밀도함수의 적분으로 정의된다.
6. 누적분포함수(CDF)
6. 누적분포함수(CDF)
누적분포함수는 확률질량함수와 밀접한 관계를 가진다. 이산 확률 변수 확률 변수의 누적분포함수는 특정 값 이하의 확률을 모두 더한 값으로 정의된다. 즉, 확률질량함수 확률질량함수가 각 개별 값의 확률을 제공한다면, 누적분포함수는 그 값까지의 누적 확률을 제공한다.
수학적으로, 이산 확률 변수 확률 변수 X의 누적분포함수 F(x)는 확률질량함수 f_X(k)를 이용해 F(x) = P(X ≤ x) = Σ_{k ≤ x} f_X(k)로 표현된다. 이는 확률질량함수의 값들을 특정 지점까지 합산하는 연산이다. 이와 유사하게, 연속 확률 변수의 경우 확률밀도함수 확률밀도함수를 적분하여 누적분포함수를 얻는다.
누적분포함수는 확률 계산에 유용하게 사용된다. 예를 들어, 이항 분포에서 성공 횟수가 a 이상 b 이하일 확률은 P(a ≤ X ≤ b) = F(b) - F(a-1)과 같이 누적분포함수의 차이로 쉽게 구할 수 있다. 또한, 누적분포함수의 도함수 또는 차분은 각각 확률밀도함수와 확률질량함수에 해당한다.
