최대 가능도법
1. 개요
1. 개요
최대 가능도법은 통계학에서 모수 추정을 위해 널리 사용되는 방법이다. 이 방법의 핵심 원리는 관측된 데이터를 가장 높은 확률로 생성할 수 있는 모수 값을 선택하는 것이다. 즉, 주어진 통계 모형 하에서 실제로 얻은 데이터가 관측될 가능성을 최대화하는 모수의 값을 추정치로 삼는다. 이러한 접근법은 회귀 분석, 계량경제학, 기계학습 등 다양한 분야의 모델 학습에 적용된다.
이 기법은 가능도 함수를 구성하고 이를 최대화하는 과정을 통해 추정을 수행한다. 가능도 함수는 고정된 데이터에 대해 모수가 변수인 함수로, 특정 모수 값에서 현재 데이터가 얻어질 상대적 가능성을 나타낸다. 최대 가능도 추정량은 일반적으로 점 추정의 형태를 가지며, 통계적 특성상 일관성과 점근적 효율성을 갖는 경우가 많다. 계산상의 편의를 위해 로그 가능도를 최대화하는 것이 일반적이다.
최대 가능도법은 그 직관적인 원리와 강력한 이론적 토대로 인해 현대 수리통계학의 근간을 이루는 추정 방법론 중 하나로 자리 잡았다. 또한 인공지능과 머신러닝 분야에서 신경망과 같은 복잡한 모델의 파라미터를 학습시키는 데에도 핵심적인 역할을 한다.
2. 통계적 기초
2. 통계적 기초
2.1. 가능도 함수
2.1. 가능도 함수
가능도 함수는 통계 모델의 모수에 대한 함수로, 주어진 모수 값에서 현재 관측된 표본 데이터가 얻어질 상대적 가능성을 나타낸다. 즉, 확률 분포의 모수가 특정 값일 때, 우리가 실제로 수집한 데이터가 관측될 조건부 확률을 의미한다. 가능도 함수는 모수 추정의 핵심 도구로, 최대 가능도법은 이 가능도 함수의 값을 최대화하는 모수 값을 찾는 추정 방법이다.
가능도 함수는 일반적으로 L(θ | x)로 표기하며, 여기서 θ는 추정 대상 모수이고 x는 관측 데이터이다. 연속 확률 변수의 경우, 가능도는 확률 밀도 함수의 값으로 정의된다. 가능도와 확률은 밀접하게 연관되어 있지만 개념적 차이가 있는데, 확률은 미래 사건의 발생 가능성을 다루는 반면, 가능도는 이미 관측된 데이터를 바탕으로 모수의 그럴듯함을 평가한다.
가능도 함수를 구성하는 기본 요소는 각 데이터 포인트의 확률 질량 함수 또는 확률 밀도 함수 값이다. 데이터가 독립 동일 분포를 따른다고 가정할 경우, 전체 표본에 대한 가능도는 각 개별 관측치의 가능도의 곱으로 계산된다. 이 곱셈 구조는 계산상의 편의를 위해 로그 가능도 함수로 변환되어 널리 사용된다.
2.2. 로그 가능도
2.2. 로그 가능도
로그 가능도는 가능도 함수에 자연로그를 취한 함수이다. 가능도 함수 자체는 여러 독립 관측값의 결합 확률 밀도 함수로, 종종 매우 작은 값을 가질 수 있다. 이러한 작은 값들은 컴퓨터에서 수치적 정밀도 문제를 일으키기 쉽다. 로그 변환은 곱셈을 덧셈으로 바꾸어 이러한 수치적 불안정성을 줄이고 계산을 단순화한다. 또한 로그 함수는 단조 증가 함수이므로, 가능도 함수를 최대화하는 모수 값과 로그 가능도를 최대화하는 모수 값은 동일하다. 이 성질 덕분에 최대 가능도법의 실제 계산은 거의 항상 로그 가능도를 대상으로 이루어진다.
로그 가능도를 사용하는 주된 이점은 계산의 편의성과 수치적 안정성이다. 확률 밀도 함수의 곱으로 표현된 가능도는 컴퓨터에서 부동소수점 언더플로를 일으킬 수 있지만, 로그를 취하면 지수 형태의 함수도 선형 항으로 변환되어 계산이 용이해진다. 또한 로그 가능도의 1차 및 2차 도함수를 구하는 것이 더 쉬워지며, 이는 뉴턴-랩슨 방법이나 기울기 하강법과 같은 수치 최적화 알고리즘을 적용하는 데 필수적이다. 많은 확률 분포, 특히 지수족에 속하는 분포들의 로그 가능도는 모수에 대해 오목 함수 형태를 가지므로 전역 최대값을 효율적으로 찾을 수 있다.
로그 가능도의 실제 적용은 매우 광범위하다. 선형 회귀 모델에서 오차가 정규분포를 따른다고 가정할 때, 최소제곱법 추정치는 동시에 로그 가능도를 최대화하는 추정치와 일치한다. 로지스틱 회귀나 포아송 회귀와 같은 일반화 선형 모형의 모수 추정에도 핵심적으로 사용된다. 더 나아가 기계 학습 분야에서는 복잡한 신경망 모델의 손실 함수로 음의 로그 가능도가 자주 사용되며, 이를 최소화하는 과정이 모델 학습이 된다. 따라서 로그 가능도는 현대 통계학과 데이터 과학의 이론적 기반을 이루는 핵심 개념 중 하나이다.
2.3. 점 추정
2.3. 점 추정
점 추정은 최대 가능도법의 핵심 목표로, 관측된 표본 데이터를 바탕으로 모집단의 미지의 모수를 하나의 특정 값으로 추론하는 과정이다. 이 방법은 가능도 함수를 최대화하는 모수 값을 찾아 그 값을 모수의 추정치로 사용한다. 즉, 실제로 관측된 데이터가 발생할 확률을 가장 높게 만드는 모수 값을 '가장 그럴듯한' 추정치로 간주한다. 이러한 점 추정치는 회귀 분석에서 계수를 결정하거나 기계학습에서 모델을 학습시키는 데 널리 활용된다.
점 추정치를 구하는 과정은 일반적으로 가능도 함수나 로그 가능도 함수를 미분하여 도함수를 0으로 만드는 방정식을 푸는 방식으로 이루어진다. 이렇게 얻어진 방정식을 가능도 방정식이라고 한다. 예를 들어, 정규 분포의 평균과 분산을 추정할 때, 가능도 방정식을 풀면 표본 평균과 표본 분산이 최대 가능도 추정치로 도출된다. 이는 최대 가능도 추정치가 종종 직관적인 표본 통계량과 일치함을 보여주는 대표적인 사례이다.
점 추정은 추정량의 특성을 평가하는 데 중요한 기준을 제공한다. 최대 가능도법으로 구한 점 추정치는 일반적으로 일치성과 점근적 정규성을 가지며, 충분히 큰 표본에서는 최선의 불편 추정량이 되는 경우가 많다. 또한, 피셔 정보 행렬을 통해 추정치의 정밀도를 측정할 수 있어, 신뢰 구간을 구성하거나 가설 검정을 수행하는 데 기초 자료로 사용된다. 따라서 점 추정치는 단순한 하나의 숫자를 넘어, 모델의 불확실성을 정량화하는 출발점이 된다.
3. 계산 방법
3. 계산 방법
3.1. 수치 최적화 알고리즘
3.1. 수치 최적화 알고리즘
최대 가능도법의 핵심 계산 과정은 가능도 함수를 최대화하는 모수 값을 찾는 수치 최적화 문제로 귀결된다. 분석적으로 해를 구할 수 없는 복잡한 모델의 경우, 컴퓨터를 이용한 수치적 알고리즘이 필수적으로 사용된다. 이는 목적 함수인 가능도 또는 로그 가능도 함수의 값을 반복적으로 계산하고 조정하여 최대값에 해당하는 점을 탐색하는 과정이다.
주요 알고리즘은 탐색 방식을 기준으로 크게 두 가지 유형으로 나뉜다. 첫째는 기울기 또는 헤세 행렬과 같은 도함수 정보를 활용하는 방법이다. 뉴턴-랩슨 방법과 그 변형인 준뉴턴법이 대표적이며, 기울기 강하법과 켤레 기울기법도 널리 사용된다. 둘째는 도함수 정보 없이 함수 값만을 비교하며 탐색하는 유전자 알고리즘이나 시뮬레이션 담금질과 같은 휴리스틱 알고리즘이다. 이는 국소 최적점에 빠질 위험이 있지만, 전역 최적점을 찾는 데 유용할 수 있다.
알고리즘 선택은 모델의 복잡도, 모수의 차원, 함수의 볼록성 등에 따라 달라진다. 볼록 최적화가 가능한 일반화 선형 모형 같은 경우 기울기 기반 방법이 효율적이다. 반면, 혼합 모형이나 잠재 변수 모형처럼 계산이 어려운 경우에는 EM 알고리즘이 특화된 접근법으로 자주 활용된다. 모든 경우에 수렴성, 계산 효율성, 초기값에 대한 민감도를 고려하여 적절한 알고리즘을 선택해야 한다.
3.2. 기울기 기반 방법
3.2. 기울기 기반 방법
기울기 기반 방법은 최대 가능도 추정을 수행할 때 목표 함수인 로그 가능도 함수의 최댓값을 찾기 위해 그 함수의 기울기, 즉 1계 도함수 정보를 활용하는 수치 최적화 알고리즘들을 포괄적으로 지칭한다. 이 방법들은 가능도 함수의 형태가 복잡하여 해석적인 해를 구할 수 없을 때, 초기값에서 시작해 기울기의 방향을 따라 반복적으로 파라미터 값을 업데이트하며 최적점에 접근한다. 대표적인 알고리즘으로는 경사 하강법과 그 변형들이 있으며, 이는 기계 학습에서 손실 함수 최소화를 위한 핵심 기법으로도 널리 사용된다.
보다 정교한 방법으로는 뉴턴-랩슨 방법이 있다. 이 방법은 로그 가능도 함수의 2계 도함수인 헤세 행렬 정보까지 사용하여 수렴 속도를 크게 높인다. 그러나 헤세 행렬을 계산하고 역행렬을 구하는 과정은 계산 비용이 높을 수 있어, 이를 근사하는 준뉴턴법이나 BFGS 알고리즘 같은 방법들이 실용적으로 자주 활용된다. 이러한 기울기 기반 최적화는 로지스틱 회귀나 신경망과 같은 복잡한 모델의 모수 학습에 필수적이다.
기울기 기반 방법의 성공은 초기 파라미터 설정, 학습률 선택, 그리고 목적 함수의 볼록성 등에 크게 의존한다. 잘못된 설정은 지역 최적점에 빠지거나 수렴이 느려지는 문제를 일으킬 수 있다. 따라서 도시 연구에서 공간 회귀 모형이나 복잡한 교통 수요 모델링을 위해 최대 가능도법을 적용할 때는 이러한 알고리즘의 특성과 한계를 이해하고 적절한 도구를 선택하는 것이 중요하다.
3.3. EM 알고리즘
3.3. EM 알고리즘
EM 알고리즘은 관측 불가능한 잠재 변수가 존재하는 통계 모델의 모수를 추정하기 위한 반복적인 최적화 방법이다. 관측 데이터만으로는 최대 가능도법을 직접 적용하기 어려운 상황, 즉 불완전한 데이터를 다룰 때 유용하게 사용된다. 알고리즘의 이름은 기대값 계산 단계와 최대화 단계를 번갈아 수행하는 과정에서 유래한다.
알고리즘은 두 단계를 반복한다. 첫 번째는 기대 단계로, 현재의 모수 추정치를 바탕으로 잠재 변수의 조건부 기대값을 계산한다. 두 번째는 최대화 단계로, 기대 단계에서 계산된 완전한 데이터의 기대 로그 가능도를 최대화하는 새로운 모수 추정치를 도출한다. 이 과정은 추정치의 변화가 미미해질 때까지 반복되어 수렴한다.
EM 알고리즘은 혼합 모델, 은닉 마르코프 모델, 주성분 분석과 같은 다양한 머신러닝 및 패턴 인식 모델의 학습에 널리 적용된다. 특히 군집 분석의 한 방법인 가우시안 혼합 모델의 파라미터를 추정하는 데 핵심적인 역할을 한다. 이 알고리즘은 로그 가능도 함수가 단조 증가한다는 보장이 있어, 국소 최적해로는 수렴할 수 있으나 전역 최적해를 보장하지는 않는다는 점이 특징이다.
4. 도시 연구 적용
4. 도시 연구 적용
4.1. 공간 회귀 모형
4.1. 공간 회귀 모형
최대 가능도법은 공간 회귀 모형에서 모수를 추정하는 데 널리 사용되는 핵심 방법이다. 공간 회귀 모형은 지리적 가중 회귀나 공간 자기상관을 명시적으로 고려하는 모델로, 전통적인 최소제곱법으로는 공간 의존성을 적절히 설명하는 모수를 추정하기 어렵다. 이 경우, 공간 상관 구조를 포함하는 오차항이나 종속변수의 분포를 정의한 후, 해당 분포 하에서 관측된 공간 데이터의 가능도 함수를 최대화하는 모수 값을 찾는 최대 가능도법이 표준적인 추정 방식으로 자리 잡았다.
구체적으로, 공간 시차 모형이나 공간 오차 모형과 같은 모델을 설정하면, 그 로그 가능도 함수는 공간 가중 행렬과 모수에 대한 복잡한 식으로 표현된다. 연구자는 수치 최적화 알고리즘을 활용해 이 로그 가능도 함수를 최대화하는 회귀 계수와 공간 자기회귀 계수, 분산 등의 값을 점 추정한다. 이러한 추정 과정을 통해 도시 내 주택 가격의 확산 효과나 범죄율의 공간적 군집 패턴과 같은 현상을 정량적으로 분석하고 해석할 수 있게 된다.
4.2. 교통 수요 모델링
4.2. 교통 수요 모델링
최대 가능도법은 교통 수요 모델링에서 핵심적인 추정 기법으로 널리 활용된다. 교통 수요 모델은 개별 통행자의 선택 행동을 예측하는 이산 선택 모형을 기반으로 하는 경우가 많으며, 이 모형들의 모수를 추정하는 데 최대 가능도법이 표준적으로 적용된다. 예를 들어, 통행자가 특정 교통 수단을 선택할 확률을 모델링하는 로짓 모형이나, 통행 발생량을 예측하는 중력 모형의 매개변수는 주어진 관측 데이터(예: 가구 통행 실태 조사 데이터) 하에서 가능도 함수를 최대화하는 값으로 추정된다. 이 과정은 모형이 실제 관측된 통행 패턴을 가장 잘 재현하도록 한다.
교통 수요 모델링에서의 추정은 일반적으로 로그 가능도 함수를 최대화하는 방식으로 이루어진다. 각 통행자의 선택은 서로 독립적이라고 가정하며, 전체 표본에 대한 로그 가능도의 합을 최대화하는 모수 값을 찾는다. 이를 위해 뉴턴-랩슨 방법이나 BFGS 알고리즘과 같은 수치 최적화 기법이 사용된다. 추정된 모수를 통해 모형은 통행 수단 분담률, 통행 시간 가치, 다양한 정책 변수(예: 통행 요금 변경, 대중교통 서비스 개선)의 효과를 정량적으로 평가할 수 있는 기반을 제공한다.
따라서 최대 가능도법은 교통 계획 및 교통 공학 분야에서 정책 분석과 수요 예측을 위한 강력한 도구 역할을 한다. 추정 결과의 통계적 신뢰도를 평가하기 위해 표준 오차나 t-통계량을 함께 계산하며, 이를 바탕으로 다양한 교통 모델의 타당성을 검증하고 미래 교통 수요를 보다 정확하게 전망하는 데 기여한다.
4.3. 토지 이용 예측
4.3. 토지 이용 예측
최대 가능도법은 도시 계획 및 지리정보시스템 분야에서 토지 이용 변화를 예측하는 모형의 핵심 추정 기법으로 널리 활용된다. 특히, 토지 이용의 전환 확률을 모델링하거나 다양한 공간적 요인이 토지 이용 유형에 미치는 영향을 분석할 때, 모형의 모수를 추정하는 데 사용된다. 예를 들어, 셀룰러 오토마타 기반 토지 이용 변화 모형이나 로지스틱 회귀 모형은 역사적 위성 영상 및 공간 데이터를 학습 데이터로 삼아, 관측된 토지 이용 패턴을 가장 잘 설명하는 모수 집합을 최대 가능도법을 통해 도출한다.
이 방법을 적용한 구체적인 모형으로는 토지 이용 변화 모형이 있다. 이 모형은 일반적으로 특정 기간 동안의 토지 이용 변화를 종속 변수로, 지형, 교통 접근성, 인구 밀도, 정책 구역 등 다양한 설명 변수를 독립 변수로 설정한다. 최대 가능도법은 이렇게 구성된 통계 모형 안에서, 실제 관측된 토지 이용 변화 데이터가 발생할 가능도를 최대화하는 각 변수의 계수(모수) 값을 찾아낸다. 추정된 모수는 향후 어떤 공간적 조건에서 특정 토지 이용 변화가 일어날 가능성이 높은지를 정량적으로 예측하는 데 사용된다.
적용 모형 유형 | 주요 설명 변수 예시 | 최대 가능도법의 역할 |
|---|---|---|
로지스틱 회귀 모형 | 토지 이용 전환 확률에 영향을 미치는 각 요인의 효과 크기(계수) 추정 | |
셀룰러 오토마타 모형 | 이웃 셀의 토지 이용 상태, 전환 규칙 | 공간적 상호작용 규칙과 전환 적합성을 결정하는 모수 추정 |
이러한 접근법은 도시 확산 분석, 농경지 감소 예측, 생태계 서식지 변화 평가 등 다양한 정책 수립과 의사 결정을 지원하는 과학적 근거를 제공한다. 최대 가능도법을 통해 구축된 예측 모형은 시나리오에 기반한 미래 토지 이용도를 생성함으로써, 지속 가능한 공간 계획에 기여한다.
5. 장단점
5. 장단점
최대 가능도법은 통계적 추정에서 널리 사용되는 강력한 방법이지만, 고유한 장점과 한계를 모두 지닌다.
이 방법의 주요 장점은 일관성, 점근적 효율성, 그리고 점근적 정규성을 포함한 바람직한 통계적 성질을 보유한다는 점이다. 이는 표본 크기가 충분히 커질수록 추정치가 실제 모수 값으로 수렴하고, 추정의 불확실성을 정확히 측정할 수 있음을 의미한다. 또한, 방법론이 직관적이고 일반적이어서 회귀 분석, 시계열 분석, 기계학습 등 다양한 통계 모형에 적용하기 용이하다. 특히, 로그 가능도 함수를 사용하면 곱셈 형태의 가능도 함수를 덧셈 형태로 변환하여 계산상의 이점을 얻을 수 있으며, 이는 복잡한 모델의 모수 추정을 실용적으로 만든다.
반면, 최대 가능도법은 몇 가지 명확한 단점을 가지고 있다. 첫째, 이 방법은 표본 크기가 작을 때 편향된 추정치를 생성할 수 있다. 둘째, 계산 과정이 복잡할 수 있으며, 수치 최적화 알고리즘에 의존하기 때문에 국소 최적점에 빠질 위험이 존재한다. 셋째, 모델의 가정이 현실 데이터와 맞지 않을 경우, 즉 모형 오류가 존재할 때 추정 결과의 신뢰도가 크게 떨어진다. 또한, 베이즈 추정과 달리 사전 정보를 공식적으로 통합할 수 없어, 사전 지식이 풍부한 상황에서는 제한적으로 보일 수 있다.
도시 연구 분야에서 이러한 장단점은 구체적으로 나타난다. 공간 회귀 모형이나 교통 수요 모델링에서 대규모 데이터를 처리할 때는 그 점근적 성질이 유용하게 작용한다. 그러나 토지 이용 예측과 같이 데이터가 부족하거나 불완전한 경우, 또는 모형의 가정이 도시 현상의 복잡성을 완전히 포착하지 못할 때, 최대 가능도 추정치의 신뢰성은 제한을 받을 수 있다. 따라서 연구자는 데이터의 특성과 모형의 구조를 고려하여 이 방법의 적용 적절성을 판단해야 한다.
