정규 방정식 (r1)

1. 개요

정규 방정식은 선형 회귀 분석에서 최소 제곱법을 통해 회귀 계수의 최적값을 직접적으로 구하는 데 사용되는 방정식이다. 이는 통계학과 머신러닝에서 모델 파라미터를 추정하는 기본적인 방법 중 하나로, 선형대수학의 원리를 바탕으로 한다.

정규 방정식은 선형 대수 방정식의 형태를 가지며, 주어진 데이터에 가장 잘 맞는 선형 모델의 계수를 한 번의 계산으로 도출할 수 있다. 이 방정식의 핵심 수식은 β = (XᵀX)⁻¹Xᵀy로 표현되며, 여기서 X는 독립 변수 데이터 행렬, y는 종속 변수 벡터, β는 추정하고자 하는 회귀 계수 벡터를 의미한다.

이 방법은 경사 하강법과 같은 반복적 최적화 알고리즘과 달리 해석적 해를 제공한다는 특징이 있다. 따라서 적절한 조건에서 정확한 최적해를 단번에 계산할 수 있어, 중소 규모의 데이터셋을 다룰 때 효율적이다. 정규 방정식은 다중 선형 회귀를 비롯한 다양한 선형 모델의 계수 추정에 널리 적용된다.

그러나 이 방정식은 행렬 연산, 특히 역행렬 계산을 필요로 하기 때문에 계산적 한계를 가진다. 독립 변수의 수가 매우 많거나 데이터 행렬 XᵀX가 특이 행렬에 가까운 경우에는 계산이 불안정해지거나 실패할 수 있어, 이러한 경우에는 다른 최적화 기법이 선호된다.

2. 정의

정규 방정식은 선형 회귀 분석에서 최소 제곱법을 통해 회귀 계수의 최적값을 직접적으로 구하는 데 사용되는 선형 대수 방정식이다. 이 방정식은 머신러닝과 통계학에서 모델의 파라미터를 추정하는 핵심적인 방법 중 하나로 널리 활용된다.

정규 방정식의 일반적인 수식 형태는 β = (XᵀX)⁻¹Xᵀy로 표현된다. 여기서 X는 설명 변수로 구성된 설계 행렬을, y는 종속 변수의 관측값 벡터를 의미한다. β는 추정하고자 하는 회귀 계수 벡터이며, Xᵀ는 X의 전치 행렬, (XᵀX)⁻¹는 XᵀX의 역행렬을 나타낸다.

이 방정식은 잔차 제곱합을 최소화하는 회귀 계수 β를 한 번의 계산으로 명시적으로 찾아낸다는 점이 특징이다. 경사 하강법과 같은 반복적 최적화 알고리즘과 달리, 정규 방정식은 해석적인 해를 제공한다. 따라서 이론적으로는 설계 행렬 XᵀX가 가역 행렬일 때 정확한 최적해를 계산할 수 있다.

3. 유도 과정

정규 방정식의 유도 과정은 선형 회귀 모델의 비용 함수인 잔차 제곱합(RSS)을 최소화하는 회귀 계수 벡터를 찾는 최적화 문제에서 출발한다. 선형 모델은 일반적으로 y = Xβ + ε 형태로 표현되며, 여기서 y는 종속 변수 벡터, X는 설계 행렬, β는 추정하고자 하는 계수 벡터, ε은 오차 벡터이다. 최소 제곱법의 목표는 실제 값 y와 모델 예측 값 Xβ 사이의 거리, 즉 잔차의 L2 놈 제곱을 최소화하는 β를 찾는 것이다.

이 비용 함수 J(β) = ||y - Xβ||²를 β에 대해 직접 미분하여 그 기울기(gradient)를 0으로 설정함으로써 정규 방정식을 유도할 수 있다. 벡터 미분 규칙을 적용하면, 기울기 ∇J(β) = -2Xᵀ(y - Xβ)가 된다. 이 기울기를 0 벡터와 같다고 놓고 식을 정리하면, XᵀXβ = Xᵀy라는 핵심 관계식을 얻는다. 이 방정식이 바로 정규 방정식의 기본 형태이다.

최종 해는 이 방정식의 양변에 XᵀX 행렬의 역행렬을 곱하여 구한다. 설계 행렬 X가 완전 열 랭크를 가져 XᵀX가 가역 행렬이라 가정하면, 회귀 계수의 최소 제곱 추정치는 β = (XᵀX)⁻¹Xᵀy로 명시적으로 구해진다. 이 유도 과정은 해석학적 최적화와 선형대수학의 연산이 결합된 결과로, 통계학과 머신러닝에서 모수 추정의 이론적 근간을 제공한다.

4. 선형 회귀에서의 적용

정규 방정식은 선형 회귀 모델의 회귀 계수를 추정하는 가장 기본적이고 직접적인 방법 중 하나이다. 최소 제곱법을 통해 모델의 예측값과 실제 값 사이의 잔차 제곱합을 최소화하는 계수를 찾는 문제는, 정규 방정식을 풀어 해를 구하는 문제로 귀결된다. 이는 설계 행렬 X와 종속 변수 벡터 y가 주어졌을 때, β = (XᵀX)⁻¹Xᵀy라는 공식으로 요약된다. 이 공식은 행렬 연산을 통해 모든 기울기를 한 번에 계산할 수 있게 해주며, 해석적인 해를 제공한다는 점에서 중요하다.

선형 회귀에서 정규 방정식을 적용하기 위한 핵심 전제는 설계 행렬 XᵀX가 가역 행렬이어야 한다는 점이다. 이 조건은 특이 행렬이 아닌, 즉 선형 독립인 특성들로 구성된 행렬일 때 충족된다. 만약 이 조건이 깨지면, 즉 다중공선성 문제가 심각하거나 특성의 수가 샘플 수보다 많은 경우에는 정규 방정식을 직접 사용할 수 없다. 이러한 경우에는 릿지 회귀나 라쏘 회귀와 같은 정규화 기법을 도입하거나, 의사역행렬을 활용하는 경사 하강법 등의 반복적 알고리즘을 대안으로 고려해야 한다.

정규 방정식의 해는 잔차 벡터가 설계 행렬의 열 공간과 직교한다는 기하학적 성질에서 비롯된다. 이는 오차가 예측 모델의 모든 입력 방향과 무관해야 최적의 해가 도출된다는 직관을 수학적으로 표현한 것이다. 따라서 이 방법은 단순 선형 회귀뿐만 아니라 다중 선형 회귀 모델에도 동일한 형태로 적용되어, 여러 독립 변수의 영향력을 동시에 추정하는 데 사용된다.

계산 측면에서, 정규 방정식은 특성의 개수가 수천 개 이하인 중소규모 데이터셋에 대해 매우 효율적이고 정확한 해를 제공한다. 그러나 대규모 데이터셋이나 고차원 데이터에서는 행렬의 역행렬 계산 비용이 매우 커지거나 계산 자체가 불가능해질 수 있어, 확률적 경사 하강법이나 미니배치 경사 하강법과 같은 최적화 알고리즘이 더 선호되는 경우가 많다.

5. 장단점

정규 방정식은 선형 회귀 문제를 해결하는 데 있어 명확한 장점과 한계를 동시에 지닌다. 가장 큰 장점은 해를 직접적으로, 즉 폐쇄형으로 구할 수 있다는 점이다. 이는 최소 제곱법 문제에 대한 수학적으로 정확한 해를 제공하며, 경사 하강법과 같은 반복적 최적화 알고리즘과 달리 학습률이나 수렴 조건을 설정할 필요가 없다. 또한 특성 변수의 수가 상대적으로 적을 때 계산이 매우 빠르고 효율적이다. 이론적으로는 행렬 연산만으로 회귀 계수 벡터를 한 번의 계산으로 도출할 수 있어 구현이 직관적이다.

그러나 정규 방정식은 몇 가지 심각한 단점을 가지고 있다. 가장 큰 문제는 계산 복잡도에 있다. 설계 행렬 X의 전치와 곱셈(XᵀX)을 수행하고, 그 결과의 역행렬을 계산해야 하는데, 이 역행렬 계산의 시간 복잡도는 특성의 개수 d에 대해 대략 O(d³)에 달한다. 이는 특성의 수가 많아지면(예를 들어 수만 개 이상) 계산 비용이 기하급수적으로 증가하여 실질적으로 계산이 불가능해질 수 있음을 의미한다. 또한 역행렬 계산 과정에서 수치적 불안정성이 발생하기 쉽다.

또 다른 주요 단점은 특이 행렬 또는 조건수가 큰 행렬에 대해 취약하다는 점이다. 설계 행렬 X의 열들이 선형 종속이거나(다중공선성) 특성 수가 샘플 수보다 많은 경우, XᵀX 행렬은 가역적이지 않아 역행렬이 존재하지 않는다. 이 경우 정규 방정식은 해를 구할 수 없다. 이러한 계산적 한계와 조건 때문에 대규모 데이터셋이나 고차원 데이터를 다루는 현대 머신러닝 및 빅데이터 분석에서는 경사 하강법, 확률적 경사 하강법, 또는 특이값 분해와 같은 대체 방법들이 더 널리 사용된다.

6. 계산적 고려사항

정규 방정식은 이론적으로는 회귀 계수를 직접 계산할 수 있는 명확한 해를 제공하지만, 실제 계산 환경에서는 몇 가지 중요한 고려사항이 필요하다. 가장 큰 문제는 수식 내에 있는 역행렬 계산이다. 특히 독립 변수 특성의 개수가 많아져 설계 행렬 X의 열이 증가하면, XᵀX 행렬의 크기가 커지고 이 행렬이 특이행렬에 가까워질 수 있다. 이 경우 역행렬 계산이 수치적으로 불안정해지거나, 아예 계산이 불가능해질 수 있다. 이러한 문제를 다중공선성이라고 한다.

이러한 계산적 문제를 해결하기 위해 여러 대안이 사용된다. 특잇값 분해나 QR 분해와 같은 행렬 분해 기법을 활용하면 역행렬을 직접 계산하지 않고도 안정적으로 해를 구할 수 있다. 또한, 특성의 수가 매우 많거나 데이터 샘플이 대규모인 경우에는 정규 방정식의 계산 복잡도가 O(n³)으로 매우 높아지므로, 경사 하강법이나 확률적 경사 하강법 같은 반복적 최적화 알고리즘이 선호된다. 이러한 알고리즘은 메모리 사용량이 적고 대용량 데이터에 더 효율적이다.

따라서 정규 방정식의 적용은 데이터의 규모와 특성 행렬의 상태에 따라 결정된다. 소규모 데이터셋이고 다중공선성 문제가 없는 경우에는 구현이 간단하고 한 번의 계산으로 정확한 해를 얻을 수 있어 유용하다. 그러나 현대의 빅데이터나 고차원 문제를 다룰 때는 계산 효율성과 수치적 안정성을 고려한 다른 방법들이 더 실용적인 선택이 된다.

7. 관련 개념

정규 방정식은 선형 회귀 문제를 해결하는 하나의 방법론으로, 다른 여러 최적화 기법과 밀접한 관련이 있다. 가장 직접적인 관련 개념은 최소 제곱법이다. 정규 방정식은 최소 제곱법의 목표, 즉 잔차 제곱합을 최소화하는 해를 선형 대수 연산을 통해 직접 도출하는 공식이다. 따라서 정규 방정식은 최소 제곱법의 해를 구하는 구체적인 계산 도구로 볼 수 있다.

계산적 측면에서 정규 방정식은 경사 하강법과 대비된다. 경사 하강법은 반복적인 계산을 통해 점진적으로 최적해에 접근하는 반면, 정규 방정식은 한 번의 계산으로 정확한 해를 제공한다. 그러나 데이터의 특성 행렬이 매우 크거나 다중공선성 문제가 있을 경우, 정규 방정식의 핵심 연산인 역행렬 계산이 불안정하거나 불가능해질 수 있다. 이러한 경우 경사 하강법이나 확률적 경사 하강법이 대안으로 사용된다.

또한, 정규 방정식은 수학적 최적화 분야에서 볼록 함수의 최솟값을 찾는 문제와 연결된다. 선형 회귀의 비용 함수는 볼록 함수이므로 전역 최솟값이 존재하며, 정규 방정식은 이 최솟값을 만족하는 필요충분조건을 나타낸다. 릿지 회귀나 라쏘 회귀와 같은 정규화된 회귀 모델에서는 목적 함수에 페널티 항이 추가되어, 이에 대응하는 수정된 정규 방정식 형태가 유도되기도 한다.

8. 여담

정규 방정식은 선형 회귀 문제를 해결하는 가장 기본적이고 직접적인 방법으로 여겨진다. 이 방정식은 최소 제곱법의 해를 선형대수학의 연립방정식 형태로 명시적으로 제시하며, 이론적으로는 매우 우아하고 완결된 해법을 제공한다. 이는 통계학과 머신러닝의 기초 교육 과정에서 회귀 분석의 핵심 원리를 이해시키는 데 중요한 역할을 한다.

그러나 현대의 대규모 데이터와 고차원 문제를 다루는 실제 응용 프로그램에서는 정규 방정식이 직접 사용되는 경우가 많지 않다. 그 대신 경사 하강법이나 확률적 경사 하강법과 같은 반복적 최적화 알고리즘이 선호된다. 이는 정규 방정식의 계산 과정에서 발생할 수 있는 수치적 불안정성과 계산 비용 문제를 피하기 위함이다.

정규 방정식의 이름은 '정규'라는 용어가 기하학에서 '수직'을 의미하는 것에서 유래했다고 볼 수 있다. 최소 제곱 해를 구하는 과정은 실제 응답 변수 벡터와 설계 행렬의 열 공간 위로의 사영 간의 잔차 벡터가 서로 직교(정규)한다는 조건에서 비롯되기 때문이다. 이와 같은 기하학적 해석은 선형 모델에 대한 직관을 높여준다.

이 방정식은 단순 선형 회귀와 다중 선형 회귀 모두에 적용되며, 그 형태는 동일하다. 또한, 가중 최소 제곱법이나 일반화 최소 제곱법과 같은 변형된 회귀 문제에서도 유사한 형태의 정규 방정식이 도출된다. 이는 정규 방정식이 갖는 개념적 확장성을 보여준다.

정규 방정식

정의	선형 회귀 분석에서 최소 제곱법을 통해 회귀 계수의 최적값을 직접적으로 구하는 데 사용되는 방정식
유형	선형 대수 방정식
주요 용도	선형 회귀 모델의 계수 추정
관련 분야	통계학 머신러닝 선형대수학
수식 형태	β = (XᵀX)⁻¹Xᵀy
상세 정보
도출 방법	비용 함수(예: 평균 제곱 오차)를 모수에 대해 편미분하여 0으로 설정
장점	해가 존재할 경우 분석적으로 정확한 해를 제공 반복적인 계산이 필요 없음
단점	설계 행렬 XᵀX의 역행렬 계산 비용이 큼[?] 특성 간 다중공선성이 강할 경우 역행렬 계산이 불안정해짐
대안 방법	경사 하강법