최소제곱법
1. 개요
1. 개요
최소제곱법은 선형 모델의 파라미터를 추정하는 가장 기초적이면서 평범한 방법 중 하나이다. 통계학의 회귀 분석 분야에서 널리 사용되며, 특히 선형회귀모델의 파라미터 추정에 주요 용도로 활용된다. 이 방법의 핵심 목표는 관측된 데이터와 모델이 예측한 값 사이의 차이, 즉 잔차의 제곱합을 최소화하는 파라미터 값을 찾는 것이다.
이 방법은 영문 명칭으로 ordinary least squares (OLS)라고도 불리며, 한국어로는 최소자승법, 최소이승법, 최소제곱법 등으로 불렸으나 현재는 '최소제곱법'으로 명칭이 통일되었다. 그 기본 원리는 단순하고 직관적이어서 통계를 처음 배울 때 가장 먼저 접하게 되지만, 그 유용성과 폭넓은 적용 가능성 때문에 다양한 학문과 실무 분야에서 가장 많이 쓰이는 추정 방법 중 하나이다.
최소제곱법은 선형회귀모델 자체를 정의하는 것이 아니라, 그러한 모델의 계수를 추정하는 하나의 방법론임을 명확히 이해하는 것이 중요하다. 모델이 데이터의 관계를 선형으로 가정한 후, 이 방법을 통해 가장 적합한 직선 또는 초평면의 방정식을 도출해낸다. 이 과정에서 정규방정식을 풀거나 행렬 연산을 활용하여 해를 구하게 된다.
2. 개념 및 수식
2. 개념 및 수식
최소제곱법은 선형 회귀 모델의 파라미터를 추정하는 가장 기본적이고 널리 쓰이는 방법이다. 이 방법의 핵심 목표는 관측된 데이터와 모델이 예측한 값 사이의 차이, 즉 잔차의 제곱합을 최소화하는 파라미터 값을 찾는 것이다.
구체적으로, 종속 변수 Y와 독립 변수 X 사이의 선형 관계를 Y_i = β_1 + β_2 X_i + ε_i 라고 가정할 때, 최소제곱법은 표본 회귀선 Y_i = b_1 + b_2 X_i + e_i 의 잔차 제곱합 ∑ e_i²를 최소화하는 추정량 b_1과 b_2를 구한다. 잔차를 제곱하여 합하는 이유는 양의 잔차와 음의 잔차가 서로 상쇄되는 것을 방지하고, 미분 가능한 목적 함수를 만들어 최솟값을 쉽게 찾기 위함이다.
이 과정은 편미분을 통해 이루어진다. 잔차 제곱합을 b_1과 b_2에 대해 각각 편미분하여 0으로 놓으면, ∑ e_i = 0 과 ∑ e_i X_i = 0 이라는 두 개의 정규방정식을 얻는다. 이 방정식들을 풀어 최종적으로 기울기 추정량 b_2 = S_xy / S_xx 와 절편 추정량 b_1 = Ȳ - b_2 X̄ 를 구할 수 있다. 여기서 S_xy는 공분산, S_xx는 분산에 해당한다.
선형대수학 관점에서 보면, 최소제곱법은 관측값 벡터 Y와 설계 행렬 A가 주어졌을 때, 정규방정식 AᵀA x = AᵀY 를 풀어 미지수 벡터 x를 구하는 문제와 동일하다. 이 해는 연립방정식 Ax = Y를 가장 근사적으로 만족시키는 최소제곱해가 된다.
3. 최소자승추정량
3. 최소자승추정량
3.1. 가우스-마르코프 정리
3.1. 가우스-마르코프 정리
가우스-마르코프 정리는 최소제곱법을 사용하여 추정한 회귀계수가 특정 조건 하에서 최적의 선형 불편추정량이 된다는 것을 보장하는 근본적인 정리이다. 이 정리에 따르면, 선형회귀모형이 일련의 가정을 만족할 때, 최소자승추정량은 모든 선형 불편추정량 중에서 분산이 가장 작은, 즉 최량선형불편추정량이 된다.
이 정리가 성립하기 위해서는 몇 가지 기본 가정이 충족되어야 한다. 첫째, 모형은 회귀계수에 대해 선형이어야 한다. 둘째, 독립변수는 비확률적이거나 오차항과 상관관계가 없어야 한다. 셋째, 오차항의 평균은 0이어야 하며, 모든 관측치에서 동일한 분산을 가져야 한다. 이 성질을 동분산성이라고 한다. 마지막으로, 서로 다른 관측치의 오차항 사이에는 자기상관이 존재하지 않아야 한다.
이러한 가정들을 모두 만족하는 모형을 고전적 회귀모형이라고 부른다. 가우스-마르코프 정리는 이러한 고전적 회귀모형의 틀 안에서 최소제곱법 추정의 우수성을 수학적으로 증명한다. 만약 오차항에 이분산성이나 자기상관성이 존재하는 등 가정이 위반되면, 최소자승추정량은 더 이상 최소분산을 가지지 않게 되어 다른 추정 방법의 고려가 필요해진다.
3.2. 통계적 특성
3.2. 통계적 특성
최소자승추정량은 몇 가지 중요한 통계적 특성을 가진다. 첫째, 최소자승추정량은 선형추정량이다. 이는 추정량이 종속변수 관측값의 선형결합으로 표현될 수 있음을 의미한다. 예를 들어, 단순 선형회귀 모형에서 기울기 추정량은 각 관측치에 특정 가중치를 부여한 종속변수 값들의 합으로 나타낼 수 있다.
둘째, 가우스-마르코프 정리의 전제 조건이 충족될 때 최소자승추정량은 불편추정량이다. 즉, 추정량의 기댓값이 추정하고자 하는 모집단의 진짜 회귀계수와 일치한다. 이는 추정 과정에서 체계적인 오차가 발생하지 않음을 보장한다.
셋째, 동일한 가우스-마르코프 정리 조건 하에서 최소자승추정량은 최량선형불편추정량의 성질을 가진다. 이는 모든 선형인 불편추정량 중에서 분산이 가장 작아 효율성이 높다는 것을 뜻한다. 이러한 추정량의 분산과 공분산은 오차항의 분산과 독립변수의 변동성을 이용해 공식적으로 계산할 수 있다.
3.3. 확률 분포
3.3. 확률 분포
최소자승추정량의 확률 분포는 오차항에 대한 추가적인 가정에 따라 결정된다. 기본적인 가우스-마르코프 정리의 가정 하에서 최소자승추정량은 불편추정량이며 최량선형불편추정량의 특성을 가진다. 그러나 이 가정만으로는 추정량의 정확한 분포를 알 수 없으며, 이는 가설검정이나 신뢰구간을 구성하는 데 제약이 된다.
이를 해결하기 위해 일반적으로 오차항의 정규 분포 가정을 추가한다. 즉, 각 관측치의 오차항이 평균이 0이고 분산이 σ²인 정규분포를 따른다고 가정한다. 이 가정 하에서 회귀계수의 최소자승추정량 b₁과 b₂는 각각 평균이 β₁, β₂이고 분산이 σ²_b₁, σ²_b₂인 정규분포를 따르게 된다. 이는 중심극한정리에 의해 표본 크기가 충분히 크면 근사적으로 성립한다고 볼 수 있다.
문제는 오차항의 분산 σ²이 실제 분석에서는 알려져 있지 않다는 점이다. 따라서 이를 추정해야 하는데, 이때 사용되는 것이 잔차의 분산 s²이다. s²은 잔차 제곱합을 (n-2)로 나누어 계산하며, 여기서 (n-2)는 두 개의 회귀계수를 추정함으로써 잃은 자유도를 반영한 것이다. 이 s²을 이용하여 회귀계수 추정량의 분산을 추정하고, 그 제곱근을 취해 표준오차를 구한다.
최종적으로, 오차항의 정규성 가정과 추정된 분산을 활용하면, 표준화된 회귀계수 추정량은 자유도 (n-2)를 가진 t-분포를 따르게 된다. 이 분포 특성은 회귀계수가 유의미한지 검정하거나 신뢰구간을 구축하는 데 필수적인 토대를 제공한다.
4. 최소자승추정량 공식 일람
4. 최소자승추정량 공식 일람
최소자승추정량의 공식은 단순회귀분석과 다중회귀분석의 경우로 나누어 정리할 수 있다. 이 공식들은 잔차의 제곱합을 최소화하는 조건, 즉 정규방정식을 풀어서 도출된다.
단순선형회귀모형 Y_i = b_1 + b_2 X_i + e_i에서 절편 b_1과 기울기 b_2의 최소자승추정량은 다음과 같다.
b_2 = S_xy / S_xxb_1 = Ȳ - b_2 X̄
여기서 S_xy는 공분산에 해당하는 표본 통계량이며, S_xx는 독립변수 X의 표본분산에 해당하는 값이다. 이 추정량들은 불편추정량의 성질을 가진다.
독립변수가 여러 개인 다중선형회귀모형 Y = Xβ + ε의 경우, 행렬 표기를 사용한 일반해가 존재한다. 최소자승추정량 벡터 b는 다음과 같은 정규방정식의 해로 주어진다.
b = (XᵀX)⁻¹XᵀY
이 공식은 선형대수학을 통해 유도되며, XᵀX 행렬이 가역행렬이어야 한다는 조건이 필요하다. 이는 독립변수들 사이에 완벽한 다중공선성이 없어야 함을 의미한다.
구분 | 모형 | 최소자승추정량 공식 | 비고 |
|---|---|---|---|
단순회귀 |
|
|
|
다중회귀 |
|
| 행렬 형태의 일반해 |
이러한 공식들은 회귀 분석의 이론적 기초를 이루며, 실제 데이터 분석에서는 통계 소프트웨어를 이용하여 계산된다.
5. 편미분과 연립선형방정식을 사용한 최소자승법 계산 예
5. 편미분과 연립선형방정식을 사용한 최소자승법 계산 예
최소제곱법의 계산 과정을 구체적인 예시를 통해 설명한다. 네 개의 데이터 포인트 (0,0), (4,2), (7,5), (10,6)에 대해 최소제곱법을 적용하여 최적의 직선을 찾는 과정을 보여준다.
목표는 잔차의 제곱합 D(a, b) = Σ(y_i - (a x_i + b))²을 최소화하는 기울기 a와 절편 b를 구하는 것이다. 주어진 점들을 공식에 대입하여 D(a, b)를 전개하면, 65 - 206a - 26b + 42ab + 165a² + 4b²이라는 식을 얻는다. 이 함수의 최솟값을 찾기 위해 a와 b에 대해 각각 편미분을 수행하고, 그 결과를 0으로 놓는다. 이는 최적화 문제에서 일반적으로 사용되는 방법이다.
이렇게 얻은 두 개의 방정식, 330a + 42b - 206 = 0과 42a + 8b - 26 = 0은 a와 b에 대한 연립선형방정식을 형성한다. 이 방정식 체계를 풀면 a = 139/219, b = -6/73이라는 해를 얻게 된다. 따라서, 주어진 데이터에 가장 잘 맞는 최소제곱직선의 방정식은 y = (139/219)x - (6/73)이다. 이 예시는 회귀 분석의 핵심 계산 절차를 단계별로 보여주며, 통계학에서 모수 추정이 어떻게 이루어지는지 이해하는 데 도움을 준다.
6. GLS
6. GLS
GLS는 일반화 최소제곱법(Generalized Least Squares)의 약자이다. 이는 최소제곱법의 확장된 형태로, 회귀 분석에서 오차항이 가우스-마르코프 정리의 기본 가정을 위반하는 특정한 경우에 적용할 수 있는 추정 방법이다. 구체적으로는 이분산성이나 자기상관이 존재하여 오차항의 공분산 행렬이 단순한 단위 행렬의 배수가 아닌 경우에 사용된다.
GLS의 핵심 아이디어는 모형의 변환을 통해 변형된 오차항이 다시 동분산성과 비자기상관성을 갖도록 하는 것이다. 이를 위해 원래의 선형 모형에 오차항의 공분산 행렬의 역행렬의 제곱근 행렬을 곱하는 변환을 가한다. 이 변환을 통해 얻은 새로운 모형에 대해 최소제곱법을 적용하면, 그 추정량이 바로 GLS 추정량이 된다. 이는 효율성이 떨어지는 통상최소제곱 추정량에 비해 더 낮은 분산을 가지는 최량선형불편추정량의 성질을 회복시킬 수 있다.
그러나 GLS의 실제 적용에는 한계가 있다. 이 방법은 오차항의 정확한 공분산 구조를 사전에 알고 있어야 한다는 전제가 필요하기 때문이다. 현실의 자료 분석에서는 이러한 구조를 정확히 알기 어려운 경우가 대부분이다. 따라서 오늘날에는 이분산이나 자기상관이 의심되는 경우, 오차항의 정확한 구조에 대한 가정 없이도 강건한 표준오차를 제공하는 이분산성에 강건한 표준오차나 회귀 분석 도구를 사용하는 것이 더 일반적이다.
