확률밀도함수
1. 개요
1. 개요
확률밀도함수는 연속 확률 변수를 나타내는 함수이다. 이는 이산 확률 변수를 기술하는 확률질량함수의 연속형에 해당한다. 확률밀도함수는 누적분포함수를 미분하여 얻어지며, 연속 확률 변수의 확률 분포를 완전히 기술하는 핵심 도구로 사용된다.
구체적으로, 누적분포함수가 적분 형태로 표현될 때, 그 미분이 확률밀도함수가 된다. 이 관계는 확률밀도함수의 적분이 특정 구간에서의 확률을 제공한다는 것을 의미한다. 이러한 정의가 성립하기 위해서는 누적분포함수가 절대연속이라는 조건을 만족해야 한다.
확률밀도함수는 정규 분포, 지수 분포, 균등 분포 등 다양한 연속 확률 분포를 정의하는 데 사용된다. 특히 정규 분포에서의 확률밀도함수는 통계학과 자연과학 분야에서 매우 널리 응용된다. 이 개념은 확률론, 수리통계학, 그리고 실해석학을 포함한 여러 수학 분야의 기초를 이룬다.
2. 정의
2. 정의
확률밀도함수는 연속 확률 변수를 기술하는 핵심적인 함수이다. 이는 이산 확률 변수를 다루는 확률질량함수의 연속형에 해당한다. 수학적으로, 확률 변수 X의 누적분포함수 F_X(x)가 주어졌을 때, 확률밀도함수 f_X(x)는 누적분포함수를 미분하여 정의된다. 즉, f_X(x) = d/dx F_X(x)의 관계를 가진다. 이 정의가 성립하기 위해서는 누적분포함수가 절대연속이라는 조건을 만족해야 한다.
확률밀도함수의 값 자체는 특정 지점에서의 확률을 의미하지 않는다. 대신, 매우 작은 구간 [x, x+dx]에서의 확률이 f_X(x) dx로 근사된다는 점에서 '밀도'의 개념을 지닌다. 이는 선형밀도가 질량을 길이로 나눈 것과 유사하게, 확률밀도는 미소 구간의 확률을 그 구간의 길이로 나눈 극한값으로 이해할 수 있다. 이러한 특성 덕분에 연속 확률 변수의 확률은 특정 구간에 대해 확률밀도함수를 적분하여 계산한다.
확률밀도함수는 다양한 확률 분포의 핵심을 이루며, 가장 대표적인 예로 정규 분포의 종 모양 곡선이 있다. 이 외에도 지수 분포, 균등 분포, 감마 분포 등 수많은 연속 분포가 각자 고유한 확률밀도함수 형태를 가진다. 한편, 본래 이산 확률 분포인 푸아송 분포의 확률질량함수는 특정 조건과 근사를 통해 연속적인 확률밀도함수의 형태로 해석될 수도 있다.
3. 절대 연속 조건
3. 절대 연속 조건
확률밀도함수는 누적분포함수를 미분하여 정의된다. 이 정의가 성립하려면 누적분포함수가 절대연속이라는 조건을 만족해야 한다. 절대연속은 실해석학에서 다루는 개념으로, 측도론을 통해 엄밀하게 정의된다. 이 조건은 누적분포함수가 어떤 가측 함수에 대한 르베그 적분으로 표현될 수 있음을 보장한다. 즉, 확률밀도함수가 존재하기 위한 필요충분조건은 누적분포함수가 절대연속인 것이다.
일반적인 이공계 학부 과정에서는 이 절대연속 조건을 생략하고 가르치는 경우가 많다. 이는 대부분의 응용 분야에서 다루는 연속 확률 변수와 확률 분포 (예: 정규 분포, 지수분포)가 이 조건을 자연스럽게 만족하기 때문이다. 그러나 확률론이나 수리통계학을 깊이 공부할 때는 이 수학적 기초가 중요해진다.
절대연속 조건이 충족되지 않는 경우, 누적분포함수를 미분하여 얻은 함수는 확률밀도함수의 역할을 제대로 수행하지 못할 수 있다. 대표적인 예가 디랙 델타 함수를 포함하는 혼합 분포의 경우이다. 따라서 확률밀도함수의 엄밀한 이해를 위해서는 누적분포함수의 성질과 절대연속의 개념에 대한 학습이 필요하다.
4. 의미
4. 의미
확률밀도함수의 의미는 확률 '밀도'라는 이름에 담겨 있다. 이는 연속 확률 변수에서 특정한 한 점의 확률이 0이라는 점에서 비롯된다. 연속형 변수에서는 개별 값에 대한 확률이 존재하지 않으며, 확률은 항상 구간 단위로만 정의된다. 따라서 확률밀도함수는 특정 지점에서의 확률값이 아니라, 그 지점 주변의 극히 작은 구간에서의 확률 변화율, 즉 '밀도'를 의미한다.
수학적으로, 확률밀도함수는 누적분포함수를 미분하여 얻어진다. 누적분포함수는 확률 변수가 특정 값 이하일 확률을 나타내는 완전한 정보를 담고 있지만, 실제 분석에서는 미분 가능한 확률밀도함수가 더 자주 활용된다. 확률밀도함수 값 자체는 확률이 아니며, 이 함수를 특정 구간에서 적분함으로써 해당 구간에 속할 확률을 계산할 수 있다. 이는 질량을 길이로 나누어 선형밀도를 구하는 것과 유사한 개념이다.
확률밀도함수는 정규 분포, 지수 분포, 감마 분포 등 다양한 연속 확률 분포를 정의하는 핵심 요소이다. 이를 통해 데이터의 분포 형태, 중심 경향성, 변동성을 시각화하고 분석할 수 있다. 또한 확률밀도함수를 이용하면 기댓값, 분산 등의 모멘트를 계산할 수 있어, 통계적 추론의 기초를 제공한다.
5. 푸아송 분포의 확률밀도함수
5. 푸아송 분포의 확률밀도함수
5.1. 스털링 근사
5.1. 스털링 근사
스털링 근사는 계승 함수에 대한 근사식으로, 큰 정수에 대한 팩토리얼 값을 추정하는 데 사용된다. 이 근사는 푸아송 분포의 확률질량함수를 연속 확률 변수의 확률밀도함수 형태로 근사적으로 표현할 때 중요한 역할을 한다.
푸아송 분포의 확률질량함수는 이산 확률 분포를 기술한다. 여기에 스털링 공식, 즉 x! ≈ √(2πx) * (x/e)^x를 적용하면, 확률질량함수의 형태를 변형할 수 있다. 이 변형을 통해 원래의 이산형 함수가 정규 분포의 확률밀도함수와 유사한 연속형 형태로 점근한다는 사실을 확인할 수 있다. 이는 중심극한정리와 연결되는 중요한 성질이다.
이 근사 과정은 람다 값이 클 때 푸아송 분포가 정규 분포에 근사한다는 사실을 수학적으로 보여준다. 구체적으로, 확률변수의 값 x가 평균 λ 주변에서 변동할 때, 그 확률 분포는 평균이 λ이고 분산이 λ인 정규 분포의 확률밀도에 가까워진다. 이는 통계적 추론에서 푸아송 모델을 다룰 때 유용한 근거가 된다.
5.2. 테일러 급수
5.2. 테일러 급수
푸아송 분포의 확률질량함수에 스털링 근사를 적용한 후, 추가적인 근사 기법으로 테일러 급수를 사용할 수 있다. 이는 이산 분포인 푸아송 분포의 확률질량함수를 연속적인 형태로 근사하는 과정에서 나타난다.
스털링 근사 적용 후의 식에서, 변수 x가 모수 λ 근처에 있을 때를 가정하여 x = λ + u로 치환한다. 이때 핵심 항인 (λ/x)^x의 로그를 취하고, 테일러 급수 전개를 통해 근사한다. 로그 함수 log(1+u)를 u=0 근방에서 테일러 급수로 전개하면, 1차 및 2차 항까지 사용하여 근사식을 얻을 수 있다.
이 과정을 통해 최종적으로 푸아송 확률질량함수는 정규 분포의 확률밀도함수 형태에 가까운 식으로 재표현된다. 결과 식은 분모의 제곱근 항과 지수 함수 내의 제곱 항으로 구성되며, 이는 중심극한정리의 관점에서 푸아송 분포가 큰 λ 값에서 정규 분포로 수렴한다는 사실을 보여주는 한 방법이 된다.
