최대우도법
1. 개요
1. 개요
최대우도법은 통계학에서 모수를 추정하는 가장 기본적이고 널리 사용되는 방법 중 하나이다. 이 방법의 핵심 아이디어는 관측된 표본 데이터가 주어졌을 때, 그 데이터가 발생할 확률, 즉 우도를 최대화하는 모수의 값을 추정치로 선택하는 것이다. 다시 말해, 실제로 얻은 데이터를 가장 그럴듯하게(가장 가능성 높게) 만들어내는 모델의 매개변수를 찾는 과정이다.
이 방법은 로널드 피셔에 의해 그 이론적 기반이 체계화되었으며, 영문 명칭인 Maximum Likelihood Estimation을 줄여 흔히 MLE라고 부른다. 최대우도법은 점추정의 한 방법으로, 회귀 분석, 가우시안 혼합 모델, 그리고 다양한 머신러닝 알고리즘의 학습 과정에서 모수 추정의 표준 도구로 자리 잡았다. 또한 생물통계학, 계량경제학 등 데이터를 분석하는 거의 모든 분야에서 응용되고 있다.
최대우도추정량은 일반적으로 강력한 통계적 성질을 가진다. 대표적으로 일치성을 갖추어, 표본의 크기가 무한히 커질수록 참값에 수렴하는 성질이 있다. 또한 점근적 정규성을 만족시켜, 큰 표본에서의 분포가 정규분포를 따르므로 구간 추정과 가설 검정을 수행하는 데 유용하게 활용될 수 있다.
이 방법은 계산의 편의를 위해 우도 함수 대신 로그 우도 함수를 최대화하는 방식으로 주로 수행된다. 로그 변환은 곱셈을 덧셈으로 바꾸어 계산을 단순화할 뿐만 아니라, 여러 확률분포에서 수학적 처리를 용이하게 만든다. 최대우도법은 베이즈 추정, 최소제곱법, 적률법 등 다른 추정 방법들과 비교되며, 각각의 장단점에 따라 상황에 맞게 선택되어 사용된다.
2. 기본 원리
2. 기본 원리
최대우도법의 기본 원리는 관측된 표본 데이터를 가장 잘 설명하는 모수의 값을 찾는 것이다. 이 방법은 주어진 통계 모델 하에서 현재 얻은 데이터가 관측될 가능성, 즉 우도를 계산하고, 이 우도를 최대로 만드는 모수의 값을 최적의 추정치로 삼는다. 핵심은 '데이터가 고정되어 있고 모수가 변수'라는 관점에서, 실제로 일어난 사건(데이터)이 발생할 확률을 최대화하는 조건을 찾는 것이다.
구체적으로, 어떤 확률 분포의 형태는 알고 있지만 그 분포를 결정짓는 정확한 모수 값을 모를 때, 우리가 수집한 표본 데이터를 바탕으로 가장 그럴듯한 모수 값을 역으로 추론한다. 예를 들어, 동전을 던져 앞면이 나올 확률이라는 모수를 추정한다고 하자. 10번 던져 7번 앞면이 나왔다는 데이터를 관측했다면, 최대우도법은 '앞면 확률이 얼마일 때, 10번 중 7번 앞면이 나올 확률(우도)이 가장 높은가'를 계산한다. 이 경우, 직관적으로도 앞면 확률을 0.7로 추정하는 것이 가장 합리적일 것이며, 최대우도법은 수학적으로 이를 정확히 도출해낸다.
이러한 원리를 구현하기 위해 우도 함수를 구성한다. 우도 함수는 모수를 변수로 하고, 주어진 데이터를 관측할 조건부 확률을 나타내는 함수이다. 최대우도법은 이 함수의 값을 최대화하는 모수 값을 찾는 문제, 즉 최적화 문제로 귀결된다. 실제 계산에서는 곱셈 형태의 확률을 다루기보다는 로그를 취한 로그 우도 함수를 최대화하는 것이 수학적으로 더 편리하며, 이를 통해 미분을 이용한 해석적 해법이나 컴퓨터를 이용한 수치적 방법으로 추정치를 구할 수 있다.
3. 수학적 정의
3. 수학적 정의
3.1. 우도 함수
3.1. 우도 함수
우도 함수는 최대우도법의 핵심 개념으로, 주어진 모수에 대해 관측된 데이터가 얻어질 가능성(우도)을 수치화한 함수이다. 확률 함수와 형태는 유사하지만, 해석의 관점이 근본적으로 다르다. 확률 함수는 모수가 고정되어 있을 때 다양한 데이터가 발생할 확률을 나타내는 반면, 우도 함수는 관측된 데이터가 고정되어 있을 때, 이 데이터를 생성할 가능성이 모수의 값에 따라 어떻게 변하는지를 나타낸다.
우도 함수는 일반적으로 L(θ | x)로 표기하며, 여기서 θ는 추정하고자 하는 모수 벡터이고, x는 관측된 데이터를 의미한다. 데이터가 독립 동일 분포를 따른다고 가정할 경우, 우도 함수는 각 데이터 포인트에 대한 확률 밀도 함수 또는 확률 질량 함수 값의 곱으로 정의된다. 이는 모든 관측치가 동시에 발생할 결합 가능성을 의미한다.
우도 함수의 값 자체보다는 그 상대적인 크기, 즉 서로 다른 모수 값에 따른 우도 함수 값의 비율이 중요하다. 최대우도법의 목표는 바로 이 우도 함수의 값을 최대화하는 모수 θ̂를 찾는 것이다. 이렇게 찾은 값을 최대우도추정량이라고 부른다. 실제 계산에서는 곱 형태보다는 로그를 취한 로그 우도 함수를 최대화하는 것이 수학적으로 더 편리하며, 이는 곱을 합으로 변환시켜 계산을 단순화하고 수치적 안정성을 높여준다.
3.2. 로그 우도 함수
3.2. 로그 우도 함수
로그 우도 함수는 우도 함수에 자연로그를 취한 함수이다. 우도 함수 자체는 여러 독립적인 관측값에 대한 확률의 곱으로 표현되기 때문에, 실제 계산에서는 곱셈보다 덧셈이 훨씬 용이하다는 장점이 있다. 따라서 자연로그는 단조 증가 함수이므로, 우도 함수를 최대화하는 모수 값과 로그 우도 함수를 최대화하는 모수 값은 동일하다. 이 변환을 통해 복잡한 곱셈 연산을 간단한 덧셈 연산으로 바꿀 수 있어 계산상의 편의성이 크게 향상된다.
로그 우도 함수를 사용하는 또 다른 중요한 이유는 수학적 분석의 용이성에 있다. 로그를 취하면 곱셈 형태의 확률 밀도 함수나 확률 질량 함수가 로그의 합으로 변환되어, 이후 최대값을 찾기 위한 미분 계산이 훨씬 간단해진다. 특히 정규 분포나 지수 분포 계열과 같은 많은 일반적인 확률 분포에서 로그 우도 함수는 모수에 대한 2차 함수 형태가 되어, 미분을 통해 최대우도추정량을 비교적 쉽게 구할 수 있다.
로그 우도 함수는 최적화 알고리즘에서도 핵심적인 역할을 한다. 경사 하강법이나 뉴턴-랩슨 방법과 같은 수치적 최적화 기법을 적용할 때, 목적 함수의 1차 도함수(기울기)와 2차 도함수(헤세 행렬) 계산이 필요하다. 로그 우도 함수는 이러한 도함수 계산을 훨씬 간결하게 만들어 주며, 수치적 안정성도 높여준다. 이는 특히 딥러닝과 같은 복잡한 머신러닝 모델의 학습 과정에서 필수적이다.
또한, 로그 우도 함수의 개념은 정보 이론과도 깊이 연결되어 있다. 로그 우도 함수의 최대값은 크로네커 델타와 관련이 있으며, 모델의 적합도를 평가하는 아카이케 정보 기준이나 베이즈 정보 기준과 같은 지표들도 로그 우도 함수를 기반으로 구성된다. 따라서 로그 우도 함수는 단순한 계산 도구를 넘어, 통계적 모형 선택과 가설 검정의 이론적 토대를 마련하는 중요한 개념이다.
3.3. 최대우도추정량
3.3. 최대우도추정량
최대우도추정량은 최대우도법을 통해 구한 모수의 추정치를 의미한다. 주어진 표본 데이터를 바탕으로 우도 함수를 구성한 후, 이 함수의 값을 최대로 만드는 모수의 값을 계산하여 추정량으로 삼는다. 이 과정에서 우도 함수를 직접 최대화하기보다는 계산의 편의를 위해 로그 우도 함수를 최대화하는 경우가 많다.
최대우도추정량을 구하는 일반적인 절차는 다음과 같다. 먼저, 관측된 데이터와 가정한 확률 분포를 바탕으로 우도 함수를 설정한다. 다음으로, 이 함수를 최대화하는 모수 값을 찾기 위해 미분을 이용한 해석적 방법이나 최적화 알고리즘을 이용한 수치적 방법을 사용한다. 예를 들어, 정규 분포의 평균과 분산을 추정하는 문제에서는 우도 함수를 미분하여 0이 되는 지점을 구하는 방식으로 추정량을 도출할 수 있다.
이렇게 구해진 최대우도추정량은 여러 가지 바람직한 통계적 성질을 가진다. 대표적으로 일치성을 갖추어 표본의 크기가 커질수록 참값에 수렴하며, 점근적 정규성을 보여 대표본에서 근사적으로 정규 분포를 따른다. 또한 피셔 정보량과 깊은 연관이 있어 점근적으로 최소 분산을 가지는 효율적인 추정량이 된다는 점에서 그 가치가 높다.
최대우도추정량은 회귀 분석, 로지스틱 회귀, 가우시안 혼합 모델을 비롯한 다양한 통계 모델링과 머신러닝의 모수 학습에 광범위하게 적용된다. 이는 복잡한 모델에서도 비교적 직관적이고 강력한 추정 결과를 제공하기 때문이다.
4. 계산 방법
4. 계산 방법
4.1. 해석적 방법
4.1. 해석적 방법
해석적 방법은 우도 함수를 최대화하는 모수 값을 방정식을 풀어 직접 구하는 방법이다. 이 방법은 우도 함수나 로그 우도 함수를 모수에 대해 미분한 후, 그 도함수를 0으로 놓고 방정식을 푸는 과정을 포함한다. 이렇게 얻어진 방정식을 우도 방정식이라고 한다. 해석적 해는 수학적으로 명확한 형태로 추정량을 표현할 수 있어 이론적 성질을 분석하는 데 유리하다.
많은 일반적인 통계 모델에서는 해석적 방법으로 최대우도추정량을 구할 수 있다. 예를 들어, 정규 분포의 평균과 분산을 추정하거나, 로지스틱 회귀 모델의 계수를 추정할 때, 우도 방정식의 해를 구하는 공식을 유도할 수 있다. 이러한 경우 추정 과정이 빠르고 정확하며, 추정량의 통계적 특성을 수학적으로 증명하는 데 활용된다.
그러나 모든 모델에서 해석적 해를 구할 수 있는 것은 아니다. 모델이 복잡하거나 우도 함수의 형태가 비선형적인 경우, 우도 방정식을 풀어 닫힌 형태의 해를 찾는 것이 불가능할 수 있다. 이러한 경우에는 뉴턴-랩슨 방법이나 경사 하강법과 같은 수치적 방법에 의존해야 한다. 따라서 해석적 방법은 적용 가능한 모델 범위가 제한적이라는 단점을 가진다.
4.2. 수치적 방법
4.2. 수치적 방법
최대우도법에서 수치적 방법은 우도 함수를 최대화하는 모수를 해석적으로 구할 수 없을 때 사용하는 계산 기법이다. 즉, 로그 우도 함수를 미분하여 0이 되는 지점을 직접 방정식으로 풀기 어려운 경우에 적용된다. 이러한 상황은 모델이 복잡하거나 모수의 차원이 높은 경우, 예를 들어 일반화 선형 모형이나 혼합 모형과 같은 현대 통계 모델링에서 흔히 발생한다.
주요 수치적 최적화 알고리즘으로는 경사 하강법, 뉴턴-랩슨 방법, 그리고 그 변형인 BFGS 알고리즘 등이 널리 쓰인다. 이 방법들은 기본적으로 반복적인 과정을 통해 로그 우도 함수의 극대값에 해당하는 모수 추정치를 점진적으로 찾아간다. 계산 과정에서는 함수의 1차 도함수(기울기)와 2차 도함수(헤세 행렬) 정보를 활용하여 수렴 속도와 정확도를 높인다.
방법 | 기본 원리 | 주요 특징 |
|---|---|---|
경사 하강법 | 함수의 기울기 반대 방향으로 파라미터를 조정 | 구현이 간단하지만 수렴 속도가 느릴 수 있음 |
뉴턴-랩슨 방법 | 2차 도함수(헤세 행렬)를 사용하여 근을 찾음 | 수렴 속도가 빠르지만 헤세 행렬 계산 부담이 큼 |
준뉴턴법 (예: BFGS) | 헤세 행렬을 근사하여 계산 부담을 줄임 | 뉴턴 방법의 장점과 계산 효율성을 결합 |
이러한 수치적 방법은 통계 소프트웨어와 머신러닝 라이브러리의 핵심을 이루며, 사용자는 복잡한 수학적 유도 없이도 강력한 모수 추정을 수행할 수 있다. 다만, 알고리즘의 초기값 설정, 수렴 판정 기준, 지역 최적해에 갇힐 위험 등에 주의해야 하며, 때로는 여러 초기값에서 알고리즘을 실행하는 등의 기법이 필요하다.
5. 성질
5. 성질
5.1. 일치성
5.1. 일치성
최대우도법의 중요한 점근적 성질 중 하나는 일치성이다. 일치성이란 표본의 크기가 무한히 커질수록 최대우도추정량이 모집단의 실제 모수 값으로 확률적으로 수렴하는 성질을 말한다. 즉, 충분히 많은 데이터를 사용하면 최대우도법으로 구한 추정치가 진짜 모수 값에 가까워진다는 보장을 제공한다.
이러한 일치성은 대수의 법칙과 같은 통계적 원리에 기반한다. 표본 크기가 증가함에 따라 표본에서 계산된 우도 함수는 모집단의 진짜 우도 함수에 근접하게 되고, 이에 따라 우도 함수를 최대화하는 점인 최대우도추정량도 실제 모수 값에 가까워지게 된다. 이 성질은 최대우도법이 널리 신뢰받는 추정 방법이 되는 근본적인 이유 중 하나이다.
일치성은 점근적 성질이므로, 표본 크기가 작을 때는 추정치가 편향될 수 있음을 유의해야 한다. 그러나 많은 실제 응용 분야에서는 충분한 데이터를 확보할 수 있어, 최대우도법이 일치성을 바탕으로 신뢰할 수 있는 추정 결과를 제공한다. 이 성질은 회귀 분석이나 머신러닝 모델의 모수 추정에서 모델의 타당성을 평가하는 데 중요한 기준이 된다.
5.2. 점근적 정규성
5.2. 점근적 정규성
최대우도법으로 얻은 추정량은 표본 크기가 충분히 클 때 점근적 정규성을 가진다. 이는 추정량의 확률 분포가 정규 분포에 근접한다는 성질을 의미한다. 구체적으로, 일정한 규칙성 조건 하에서 최대우도추정량은 점근적으로 평균이 실제 모수 값이고 분산이 피셔 정보량의 역수인 정규 분포를 따른다. 이 성질은 대수의 법칙과 중심극한정리와 같은 통계학의 기본 원리에 기반을 두고 있다.
점근적 정규성은 표본 크기가 증가함에 따라 추정량의 분포가 점점 더 정규 분포에 가까워진다는 점근적 성질이다. 따라서 이 성질은 유한한 표본 크기에서 항상 성립하는 것은 아니며, 표본 크기가 충분히 커야 유효하다. 이 성질 덕분에 모수에 대한 가설 검정을 수행하거나 신뢰 구간을 구성하는 것이 가능해진다. 예를 들어, Wald 검정이나 우도비 검정과 같은 통계적 검정 방법들은 이 점근적 정규성에 의존한다.
점근적 정규성은 최대우도법의 강력한 이론적 토대를 제공한다. 이 성질은 추정량의 불확실성을 정량화하고, 다른 추정치와의 비교를 가능하게 하며, 복잡한 모델에서도 통계적 추론을 실행할 수 있는 근거가 된다. 점근 이론의 중요한 결과 중 하나로, 통계적 추론의 실용적 적용에 널리 활용된다.
5.3. 불편성
5.3. 불편성
최대우도법으로 구한 추정량은 일반적으로 불편성을 보장하지 않는다. 즉, 최대우도추정량의 기댓값이 추정하고자 하는 모집단의 모수와 정확히 일치하지 않는 경우가 많다. 이는 추정량이 편향되어 있을 수 있음을 의미한다.
불편성의 부재는 특히 표본 크기가 작은 경우에 두드러진다. 예를 들어, 정규분포의 분산을 추정할 때, 최대우도법으로 구한 분산 추정량은 실제 모분산보다 평균적으로 작은 값을 내는 것으로 알려져 있다. 이러한 편향은 표본 크기가 커질수록 점점 줄어드는 성질을 가진다.
따라서 최대우도법의 주요 강점은 불편성이 아니라 일치성과 점근적 정규성에 있다. 표본 크기가 충분히 크면 최대우도추정량은 모수에 확률적으로 수렴하며, 그 분포가 정규분포에 근사하게 된다. 이러한 점근적 성질 덕분에 가설 검정이나 신뢰 구간 구축과 같은 추론이 가능해진다.
실제 응용에서는 불편성을 보정한 추정량을 사용하기도 한다. 위의 정규분포 분산 추정 예시에서는 표본 분산 계산 시 자유도(n-1)로 나누어 편향을 보정한다. 그러나 많은 복잡한 통계 모델에서는 이러한 보정이 쉽지 않으며, 대신 표본 크기가 충분히 크다는 가정 하에 최대우도법의 점근적 성질을 신뢰하고 사용하는 것이 일반적이다.
6. 응용 분야
6. 응용 분야
6.1. 회귀 분석
6.1. 회귀 분석
회귀 분석에서 최대우도법은 모델의 모수를 추정하는 핵심 방법론으로 널리 사용된다. 특히 일반화 선형 모형의 맥락에서, 종속 변수의 확률 분포를 가정하고 그에 따른 우도 함수를 구성하여 모수를 추정한다. 예를 들어, 선형 회귀 모델에서 오차가 정규 분포를 따른다고 가정하면, 최대우도법을 적용한 추정치는 최소제곱법을 통해 얻은 추정치와 동일해진다. 이는 오차의 제곱합을 최소화하는 것이 정규 분포 하에서 우도를 최대화하는 것과 수학적으로 동일하기 때문이다.
로지스틱 회귀 분석은 최대우도법이 필수적으로 적용되는 대표적인 사례이다. 이분형 종속 변수를 모델링할 때, 로짓 함수를 연결 함수로 사용하며, 관측된 결과(성공/실패)의 조건부 확률로 우도 함수를 정의한다. 이후 뉴턴-랩슨 방법이나 경사 하강법과 같은 수치적 최적화 알고리즘을 통해 이 우도 함수를 최대화하는 회귀 계수들을 찾아낸다. 이렇게 추정된 계수는 각 독립 변수가 종속 변수에 미치는 영향의 크기와 방향을 해석하는 데 사용된다.
최대우도법은 포아송 회귀나 감마 회귀와 같이 오차가 비정규 분포를 따르는 모델에서도 표준적인 추정 방법이다. 이 방법의 강점은 모수에 대한 점 추정치를 제공할 뿐만 아니라, 피셔 정보 행렬을 계산함으로써 추정치의 표준 오차 및 신뢰 구간을 도출할 수 있다는 점에 있다. 따라서 회귀 분석을 통한 통계적 추론의 기반을 마련해준다.
6.2. 머신러닝
6.2. 머신러닝
최대우도법은 머신러닝 분야에서 모델 학습의 핵심 도구로 널리 사용된다. 특히 지도 학습에서 모수를 가진 확률 모델을 학습할 때, 주어진 훈련 데이터를 가장 잘 설명하는 모델의 매개변수를 찾는 데 적용된다. 로지스틱 회귀나 가우시안 혼합 모델과 같은 모델은 학습 과정에서 최대우도법을 통해 목적 함수를 정의하고 이를 최적화한다.
딥러닝에서도 최대우도 원리는 중요한 역할을 한다. 신경망을 분류기로 사용할 때, 크로스 엔트로피 손실 함수는 모델 출력의 분포와 실제 레이블 분포 사이의 차이를 측정하는데, 이는 최대우도 원리를 손실 함수의 형태로 구현한 것에 해당한다. 즉, 모델이 데이터의 실제 조건부 분포에 대한 최대우도추정량을 학습하도록 유도한다.
머신러닝의 여러 하위 분야에서도 최대우도법은 기본 원리로 작용한다. 생성 모델은 데이터의 분포 자체를 학습하는데, 변분 오토인코더나 생성적 적대 신경망의 학습 목표를 유도하는 과정에서 최대우도 원리가 사용된다. 또한 강화 학습에서 정책 경사 방법은 에이전트가 관측한 경험의 우도를 최대화하는 방향으로 정책을 업데이트하기도 한다.
이 방법의 장점은 수학적으로 명료한 원리를 바탕으로 하며, 대규모 데이터와 복잡한 모델에 대해 경사 하강법과 같은 효율적인 수치적 방법과 결합되어 적용될 수 있다는 점이다. 따라서 최대우도법은 머신러닝 모델이 데이터에서 패턴을 효과적으로 추출하고 일반화 성능을 갖추도록 하는 이론적 토대를 제공한다.
6.3. 생물통계학
6.3. 생물통계학
생물통계학은 생명과학과 의학 연구에서 발생하는 데이터를 분석하기 위해 통계 방법을 적용하는 분야이다. 최대우도법은 이러한 분야에서 모수를 추정하는 핵심 도구로 널리 사용된다. 특히 복잡한 생물학적 현상을 모델링할 때, 관측 데이터를 바탕으로 모델의 미지의 매개변수를 추정하는 데 필수적이다.
생물통계학에서 최대우도법은 유전자 빈도 추정, 생존 분석, 역학 연구 등 다양한 맥락에서 응용된다. 예를 들어, 특정 질병의 발병률이나 유전자형의 빈도를 추정할 때, 표본으로부터 관측된 데이터를 가장 잘 설명하는 모수 값을 찾는 데 이 방법이 활용된다. 또한 로지스틱 회귀 분석이나 생존 모형과 같은 통계 모형의 계수를 추정하는 과정에서도 최대우도법이 기본 알고리즘으로 작동한다.
이 방법의 강점은 모수에 대한 이론적 분포를 가정할 수 있을 때, 표본의 정보를 가장 효율적으로 활용하는 점근적 특성을 가지는 점이다. 이는 상대적으로 제한된 표본 크기를 다루는 경우가 많은 임상 시험 데이터나 유전체학 데이터 분석에서 중요한 이점으로 작용한다. 따라서 최대우도추정량은 생물통계학 논문에서 가장 흔히 보고되는 추정치 형태 중 하나이다.
한편, 계산상의 복잡성으로 인해 해석적 해를 구하기 어려운 모형의 경우, 뉴턴-랩슨 방법이나 기대값 최대화 알고리즘과 같은 수치적 최적화 기법을 통해 최대우도추정량을 근사적으로 구하기도 한다. 이는 혼합 모형이나 잠재 변수 모형과 같이 생물통계학에서 자주 접하는 복잡한 모델을 적합시키는 데 필수적이다.
7. 장단점
7. 장단점
최대우도법은 통계적 모수 추정에서 가장 널리 사용되는 방법 중 하나로, 명확한 장점과 함께 몇 가지 한계점을 지닌다.
최대우도법의 가장 큰 장점은 그 강력한 이론적 토대에 있다. 이 방법은 일치성을 갖추어 표본 크기가 커질수록 추정값이 참 모수 값으로 수렴한다는 보장이 있다. 또한 점근적 정규성을 만족하므로, 대표본에서 추정량의 분포를 근사할 수 있어 신뢰구간을 구성하거나 가설 검정을 수행하는 데 유용하다. 계산 과정이 일반적으로 직관적이며, 우도 함수를 최대화하는 원리는 "관측된 데이터를 가장 잘 설명하는 모델"을 찾는다는 명확한 해석을 제공한다. 이러한 특성 덕분에 회귀 분석, 머신러닝, 생물통계학 등 다양한 분야에서 표준적인 추정 도구로 자리 잡았다.
그러나 이 방법은 몇 가지 단점도 존재한다. 가장 주목할 만한 점은 불편성을 보장하지 않는다는 것이다. 즉, 유한한 표본 크기에서 최대우도추정량의 기대값이 참 모수 값과 다를 수 있다. 또한 우도 함수를 최대화하는 과정이 복잡한 모델에서는 수치적 방법에 의존해야 하며, 이때 초기값 설정에 따라 국소 최적해에 빠질 위험이 있다. 모델이 정확히 명시되지 않았거나, 표본 크기가 매우 작은 경우, 또는 이상치가 존재하는 경우 추정 결과가 크게 왜곡될 수도 있다.
요약하면, 최대우도법은 이론적으로 견고하고 적용 범위가 넓은 강력한 추정 방법이지만, 표본 크기가 작은 상황이나 모델 오설정에 민감할 수 있다는 점을 고려하여 사용해야 한다. 이러한 단점을 보완하기 위해 베이즈 추정이나 다양한 강건 추정 방법들이 함께 연구되고 활용된다.
8. 관련 개념
8. 관련 개념
8.1. 베이즈 추정
8.1. 베이즈 추정
베이즈 추정은 최대우도법과 함께 모수를 추정하는 대표적인 통계적 방법이다. 두 방법의 근본적인 차이는 모수에 대한 관점에 있다. 최대우도법은 모수를 고정된 미지의 값으로 간주하는 반면, 베이즈 추정은 모수 자체를 확률 변수로 취급한다. 즉, 베이즈 추정에서는 모수에 대한 사전 지식이나 믿음을 확률 분포인 사전 분포로 표현하고, 관측된 데이터를 통해 이 믿음을 업데이트하여 사후 분포를 도출한다.
베이즈 추정의 핵심은 베이즈 정리를 적용하는 것이다. 사후 분포는 사전 분포와 데이터의 우도 함수의 곱에 비례한다. 따라서 추정치는 일반적으로 사후 분포의 평균이나 최빈값과 같은 대표값으로 결정된다. 이는 단일의 '최적' 모수 값을 찾는 최대우도법의 접근과는 다르며, 모수에 대한 불확실성을 전체 분포의 형태로 제시한다는 특징이 있다.
두 방법의 관계를 살펴보면, 사전 분포를 균일 분포로 설정한 경우, 베이즈 추정의 최대사후확률 추정치는 최대우도법의 추정치와 일치하게 된다. 그러나 사전 정보가 유효하게 포함되면 두 방법의 결과는 달라질 수 있다. 베이즈 추정은 머신러닝의 베이지안 네트워크나 베이지안 최적화 등 다양한 분야에서 불확실성을 정량화하고 통합하는 강력한 프레임워크로 활용된다.
8.2. 최소제곱법
8.2. 최소제곱법
최소제곱법은 관측된 데이터와 통계 모델을 통해 예측된 값 사이의 차이, 즉 오차의 제곱합을 최소화하는 모수를 찾는 추정 방법이다. 이 방법은 특히 회귀 분석에서 가장 널리 사용되며, 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링할 때 회귀 계수를 추정하는 데 핵심적인 역할을 한다. 오차를 제곱하여 합산함으로써 큰 오차에 더 큰 페널티를 부여하고, 양수와 음수 오차가 상쇄되는 것을 방지하여 전반적인 모델의 적합도를 최적화한다.
최소제곱법의 수학적 원리는 주로 선형 회귀 모델에서 명확하게 드러난다. 이 경우, 추정하고자 하는 회귀 계수에 대해 오차 제곱합 함수를 미분하고 그 도함수를 0으로 설정하는 정규 방정식을 풀어 해석적으로 해를 구할 수 있다. 이렇게 구해진 추정량을 최소제곱추정량이라 부르며, 이는 가우스-마르코프 정리에 따라 특정 조건 하에서 최선의 선형 불편 추정량이 되는 등 바람직한 통계적 성질을 가진다.
최대우도법과의 관계를 살펴보면, 오차가 정규 분포를 따른다는 가정 하에서 선형 회귀 모델의 모수를 추정할 때 최소제곱법은 최대우도법과 동일한 추정치를 제공한다. 이는 오차의 제곱합을 최소화하는 것이 정규 분포의 우도를 최대화하는 것과 수학적으로 동일하기 때문이다. 그러나 오차의 분포에 대한 가정이 다르거나 모델이 비선형인 경우 두 방법은 서로 다른 결과를 낳을 수 있다.
최소제곱법의 응용은 회귀 분석을 넘어 시계열 분석, 곡선 피팅, 머신러닝의 손실 함수 설계 등 다양한 분야로 확장된다. 계산이 비교적 간단하고 직관적이라는 장점으로 인해 공학, 경제학, 생물학 등 데이터를 기반으로 모델을 구축해야 하는 거의 모든 과학 분야에서 기본 도구로 활용되고 있다.
8.3. 적률법
8.3. 적률법
적률법은 모수를 추정하는 또 다른 고전적인 방법이다. 이 방법은 표본 적률과 이론적 적률이 일치하도록 하는 모수 값을 추정치로 선택한다. 표본 적률은 표본 데이터로부터 계산된 평균, 분산, 왜도와 같은 통계량이며, 이론적 적률은 확률 분포의 모수에 대한 함수로 표현된다. 적률법은 추정 방정식을 설정하고 이를 풀어 추정량을 얻는 비교적 직관적인 절차를 따른다.
적률법은 최대우도법에 비해 계산이 간단한 경우가 많으며, 특히 정규 분포나 지수 분포와 같은 일반적인 분포에서 추정 방정식이 선형 방정식 형태로 나타나 쉽게 해를 구할 수 있다는 장점이 있다. 또한 적률법으로 구한 추정량은 종종 일치 추정량의 성질을 가진다. 그러나 이 방법은 항상 최대우도법만큼 효율적이지는 않으며, 표본 크기가 작을 때 추정치의 변동성이 더 클 수 있다.
적률법은 통계학의 역사에서 초기에 널리 사용된 방법이며, 회귀 분석이나 시계열 분석과 같은 분야에서 여전히 활용된다. 특히 복잡한 확률 모형에서 최대우도법의 해를 구하기 어려울 때, 적률법으로 얻은 추정치를 최대우도법의 수치적 최적화를 위한 초기값으로 사용하기도 한다. 이는 수치 해석적 접근을 돕는 실용적인 전략이다.
9. 여담
9. 여담
최대우도법은 통계학의 근간을 이루는 방법론으로, 로널드 피셔가 20세기 초에 그 이론적 기초를 확립했다. 그의 연구는 수리통계학의 발전에 지대한 기여를 했으며, 이후 추정 이론의 핵심 도구로 자리 잡았다. 이 방법은 단순히 모수를 추정하는 것을 넘어, 가설 검정과 모형 선택의 기준을 제공하는 우도비 검정과 같은 파생 개념을 낳았다.
이 방법의 이름에 담긴 '우도'라는 개념은 때로 직관적 이해를 어렵게 만들기도 한다. 우도는 확률과 밀접한 관련이 있지만, 기술적으로는 주어진 모수 하에서 데이터가 관측될 '상대적 가능성'을 의미한다. 따라서 최대우도법은 데이터를 고정시킨 채 모수를 변화시키며, 이 상대적 가능성을 최대화하는 지점을 찾는 과정이다. 이러한 접근법은 빈도주의 통계학의 대표적인 추정 원리로 여겨진다.
컴퓨팅 파워가 제한적이던 시절에는 복잡한 모형에 대한 최대우도추정량을 구하는 것이 실질적으로 불가능한 경우가 많았다. 그러나 현대에는 강력한 최적화 알고리즘과 컴퓨팅 자원의 발전 덕분에 고차원의 복잡한 모델, 예를 들어 심층 신경망이나 은닉 마르코프 모델과 같은 모수 추정에도 널리 적용되고 있다. 이는 계산통계학의 중요한 성과 중 하나이다.
최대우도법의 영향력은 순수 통계학을 넘어 다양한 학문 분야로 확장되었다. 유전학에서는 계통수를 추론하는 데, 경제학에서는 계량경제모형을 추정하는 데, 그리고 심리측정학에서는 문항 반응 이론의 모수를 추정하는 데 핵심적으로 사용된다. 이러한 광범위한 적용 가능성은 그 방법론적 강점을 잘 보여준다.
