단순 선형 회귀
1. 개요
1. 개요
단순 선형 회귀는 통계학, 기계 학습, 계량 경제학 등에서 널리 사용되는 기본적인 회귀 분석 기법이다. 이 방법은 하나의 독립 변수와 하나의 종속 변수 사이의 선형 관계를 모델링하는 데 사용된다. 주된 목적은 변수 간의 관계를 분석하거나, 독립 변수의 값을 기반으로 종속 변수의 값을 예측하는 것이다. 또한, 이 모델은 변수 간의 인과 관계를 추론하는 데 있어서도 중요한 도구로 활용된다.
단순 선형 회귀 모델은 수학적으로 Y = β₀ + β₁X + ε의 형태로 표현된다. 여기서 Y는 종속 변수, X는 독립 변수를 나타낸다. β₀는 절편, β₁은 기울기로 알려진 회귀 계수이며, ε는 관측되지 않는 무작위 오차를 의미한다. 이 모델은 주어진 데이터에 가장 잘 맞는 직선을 찾아내는 것을 목표로 한다.
회귀 계수를 추정하는 가장 일반적이고 널리 사용되는 방법은 최소제곱법이다. 이 방법은 실제 관측값과 모델이 예측한 값 사이의 차이인 잔차의 제곱합을 최소화하는 회귀 계수를 계산한다. 이를 통해 데이터의 전반적인 패턴을 가장 잘 설명하는 직선을 도출할 수 있다.
단순 선형 회귀는 그 개념이 직관적이고 구현이 비교적 간단하여, 더 복잡한 다중 선형 회귀나 다른 통계 모델을 이해하기 위한 기초가 된다. 그러나 이 모델은 변수 간 관계가 선형적이라는 가정에 의존하며, 하나의 설명 변수만을 고려한다는 한계를 가진다.
2. 수학적 정의
2. 수학적 정의
2.1. 모델 방정식
2.1. 모델 방정식
단순 선형 회귀의 핵심은 하나의 독립 변수와 하나의 종속 변수 사이의 선형 관계를 수학적으로 표현하는 모델 방정식이다. 이 방정식은 종속 변수 Y를 독립 변수 X의 선형 함수로 설명하며, 일반적으로 Y = β₀ + β₁X + ε의 형태로 나타낸다. 여기서 β₀는 절편, β₁은 기울기 또는 회귀 계수를 의미한다. ε은 오차항으로, 모델로 설명되지 않는 무작위 변동을 나타낸다.
이 모델은 통계학, 계량 경제학, 기계 학습 등 다양한 분야에서 변수 간의 관계를 분석하거나 미래 값을 예측하는 데 널리 사용된다. 예를 들어, 광고 비용(X)과 매출액(Y)의 관계를 분석하거나, 공부 시간(X)과 시험 점수(Y)를 예측하는 데 적용할 수 있다. 모델의 목표는 주어진 데이터에 가장 잘 맞는, 즉 오차항의 제곱 합을 최소화하는 β₀와 β₁의 값을 추정하는 것이다.
모델 방정식에서 절편 β₀는 X가 0일 때 Y의 기대값을 의미한다. 기울기 β₁은 X가 한 단위 증가할 때 Y가 평균적으로 얼마나 변화하는지를 나타내는 계수로, 변수 간 관계의 강도와 방향을 보여준다. β₁이 양수이면 양의 상관관계, 음수이면 음의 상관관계를 시사한다.
이러한 선형 모델은 직관적 해석이 용이하고 계산이 비교적 간단하다는 장점이 있다. 그러나 실제 세계의 많은 관계가 엄격한 선형성을 띠지 않을 수 있으며, 이상치에 민감할 수 있다는 한계도 존재한다. 따라서 모델을 적용하기 전에는 변수 간 관계가 선형이라는 가정이 타당한지, 그리고 오차항이 특정 조건을 만족하는지 확인하는 잔차 분석이 필수적이다.
2.2. 가정
2.2. 가정
단순 선형 회귀 모델을 사용하고 그 결과를 해석하기 위해서는 몇 가지 기본적인 가정이 충족되어야 한다. 이 가정들은 모델의 타당성을 보장하고, 추정된 계수와 예측값의 신뢰성을 평가하는 데 필수적이다. 이러한 가정은 주로 오차항에 대한 것으로, 모델이 데이터를 적절히 설명하는지 판단하는 기준이 된다.
첫 번째 중요한 가정은 선형성이다. 이는 독립 변수와 종속 변수 사이의 관계가 선형적이어야 함을 의미한다. 즉, 모델 방정식 Y = β₀ + β₁X + ε에서 X의 변화가 Y에 미치는 영향은 일정한 비율로 나타나야 한다. 두 번째는 오차항의 독립성으로, 각 관측치의 오차는 서로 상관관계가 없어야 한다. 이는 특히 시계열 데이터를 다룰 때 중요하게 검토된다.
또한, 오차항은 등분산성을 가져야 한다. 이는 오차의 분산이 모든 독립 변수 값에 대해 일정하게 유지되어야 함을 뜻한다. 만약 이 가정이 위배되면, 이는 이분산성 문제로 이어져 회귀 계수 추정의 효율성을 떨어뜨린다. 마지막으로, 오차항은 정규분포를 따른다는 가정이 있다. 이 가정은 회귀 계수에 대한 가설 검정이나 신뢰구간을 구성할 때 특히 중요하다.
이러한 가정들은 잔차 분석을 통해 시각적 또는 통계적으로 검증할 수 있다. 만약 가정이 심각하게 위배된다면, 변수 변환, 가중 최소제곱법 사용, 또는 더 복잡한 모델을 고려하는 등의 대안적 접근이 필요하다.
3. 계수 추정
3. 계수 추정
3.1. 최소제곱법
3.1. 최소제곱법
최소제곱법은 단순 선형 회귀 모델에서 회귀 계수를 추정하는 가장 일반적이고 널리 사용되는 방법이다. 이 방법의 핵심 목표는 관측된 데이터 포인트와 회귀 직선 사이의 수직 거리, 즉 잔차의 제곱합을 최소화하는 기울기와 절편을 찾는 것이다. 이를 통해 데이터에 가장 잘 맞는 선형 모델을 구성할 수 있다.
구체적으로, 독립 변수 X와 종속 변수 Y의 n개 관측치가 주어졌을 때, 모델은 Y_i = β_0 + β_1 X_i + ε_i 로 표현된다. 최소제곱법은 모든 관측치에 대한 잔차 제곱합 Σ(ε_i)^2 = Σ(Y_i - (β_0 + β_1 X_i))^2 을 최소화하는 절편 β_0와 기울기 β_1의 추정치를 계산한다. 이 과정은 미적분학의 극값 문제를 푸는 방식으로 이루어진다.
잔차 제곱합을 최소화하는 β_0와 β_1의 추정치는 정규방정식을 통해 해석적으로 구할 수 있다. 이 방정식은 잔차 제곱합을 각 모수에 대해 편미분한 식을 0으로 놓아 유도된다. 정규방정식의 해는 표본 데이터의 평균, 분산, 공분산과 같은 기본 통계량만으로 표현되므로 계산이 비교적 간단하다.
최소제곱법으로 추정된 회귀 직선은 여러 가지 바람직한 통계적 성질을 가진다. 가우스-마르코프 정리에 따르면, 선형 회귀 모델의 기본 가정이 충족될 때, 최소제곱 추정량은 편향이 없으며(불편 추정량), 동일한 선형 추정량 중에서 분산이 가장 작은, 즉 최선의 선형 불편 추정량의 성질을 지닌다. 이는 기계 학습과 계량 경제학을 포함한 다양한 응용 분야에서 이 방법의 이론적 근간이 된다.
3.2. 정규방정식
3.2. 정규방정식
정규방정식은 최소제곱법을 통해 단순 선형 회귀 모델의 회귀 계수를 직접 계산하는 공식이다. 최소제곱법의 목표는 실제 관측값과 모델이 예측한 값 사이의 잔차 제곱합을 최소화하는 것이며, 이는 미분을 통해 구할 수 있는 최적화 문제이다. 정규방정식은 이 최적화 문제를 해석적으로 풀어내어, 기울기와 절편에 대한 명시적인 공식을 제공한다.
단순 선형 회귀 모델 Y = β₀ + β₁X + ε에서, 최소제곱 추정치 β̂₀(절편)와 β̂₁(기울기)는 다음과 같은 정규방정식 체계를 통해 구한다.
추정치 | 공식 |
|---|---|
기울기 (β̂₁) |
|
절편 (β̂₀) |
|
여기서 X̄와 Ȳ는 각각 독립 변수와 종속 변수의 표본 평균을 의미한다. 이 공식은 데이터의 공분산과 분산 개념을 활용하여 기울기를 계산하며, 절편은 계산된 기울기와 평균값을 통해 도출된다.
정규방정식의 주요 장점은 해를 구하는 과정이 단순하고 명확하며, 행렬 연산으로 확장하여 다중 선형 회귀 분석에도 적용할 수 있다는 점이다. 그러나 이 방법은 역행렬 계산을 필요로 하며, 독립 변수들 간에 높은 상관관계(다중공선성)가 존재하거나 데이터의 수가 매우 많을 경우 계산상의 어려움이나 불안정성이 발생할 수 있다는 한계를 가진다.
4. 모델 평가
4. 모델 평가
4.1. 결정 계수
4.1. 결정 계수
결정 계수는 단순 선형 회귀 모델이 종속 변수의 변동을 얼마나 잘 설명하는지를 나타내는 지표이다. 이 값은 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 적합한다고 해석한다. 결정 계수는 종종 R²로 표기되며, 이는 회귀 제곱합을 총 제곱합으로 나눈 값으로 계산된다. 즉, 총 변동 중 회귀식으로 설명 가능한 변동의 비율을 의미한다.
그러나 결정 계수는 몇 가지 주의점을 가지고 있다. 우선, 설명 변수의 수가 증가하면 결정 계수 값은 일반적으로 증가하는 경향이 있어, 모델의 복잡도와 무관하게 높은 값을 보일 수 있다. 또한, 결정 계수는 두 변수 간의 선형 관계의 강도만을 측정하며, 인과 관계를 증명하지는 않는다. 따라서 높은 결정 계수 값이 반드시 '좋은 모델'을 의미하는 것은 아니며, 잔차 분석 등을 통해 모델의 적합성을 종합적으로 판단해야 한다.
단순 선형 회귀에서는 결정 계수가 상관 계수의 제곱과 동일하다는 특징이 있다. 이는 두 변수 간 선형 관계의 방향성을 무시한 관계의 강도를 보여준다. 결정 계수는 예측의 정확도를 직관적으로 평가하는 데 널리 사용되지만, 과적합 가능성을 배제하기 위해 조정된 결정 계수를 함께 참고하는 것이 일반적이다.
4.2. 잔차 분석
4.2. 잔차 분석
잔차 분석은 단순 선형 회귀 모델이 데이터에 적합한지를 평가하고, 모델의 기본 가정이 충족되는지 검증하는 중요한 과정이다. 잔차는 관측된 값과 모델이 예측한 값의 차이, 즉 오차를 의미한다. 이 잔차들을 체계적으로 분석함으로써 모델의 정확성과 신뢰성을 판단할 수 있다.
잔차 분석의 주요 목적은 모델의 오차항에 대한 가정, 즉 정규성, 등분산성, 독립성을 확인하는 것이다. 이를 위해 주로 잔차도와 같은 시각적 도구를 활용한다. 예를 들어, 잔차를 종속 변수의 예측값이나 독립 변수에 대해 산점도로 그려 패턴을 관찰한다. 무작위로 흩어져 있어야 이상적이며, 특정한 곡선 패턴이나 깔때기 모양이 보이면 각각 비선형성이나 이분산성 문제를 시사한다.
또한, 잔차의 정규 분포 가정을 검토하기 위해 Q-Q 그림이나 정규성 검정을 실시한다. 잔차가 정규 분포를 따르지 않으면 회귀 계수의 가설 검정 결과나 신뢰 구간의 타당성이 떨어질 수 있다. 영향력이 큰 관측치나 이상치를 탐지하는 것도 잔차 분석의 일부로, 레버리지나 쿡의 거리 같은 지표를 계산하여 모델에 과도한 영향을 미치는 데이터 점을 찾아낸다.
이러한 분석을 통해 모델의 결함을 발견하면, 데이터 변환, 변수 추가, 또는 다른 모델링 기법 적용 등의 개선 조치를 취할 수 있다. 따라서 잔차 분석은 단순히 모델을 적합시키는 것을 넘어, 그 결과를 통계적으로 엄밀하게 해석하고 활용하기 위한 필수적인 단계이다.
5. 가설 검정
5. 가설 검정
5.1. 회귀 계수의 유의성 검정
5.1. 회귀 계수의 유의성 검정
회귀 계수의 유의성 검정은 추정된 회귀 계수가 통계적으로 유의미한지, 즉 모집단에서 실제로 그 계수가 0이 아닌지를 판단하는 절차이다. 단순 선형 회귀 모델에서 주로 검정 대상이 되는 계수는 기울기 β₁이다. 이 검정은 독립 변수 X가 종속 변수 Y를 설명하는 데 유용한지를 통계적으로 확인하는 핵심 과정이다.
검정은 일반적으로 t-검정을 사용하여 수행된다. 귀무가설(H₀)은 "기울기 계수 β₁ = 0"으로 설정하며, 대립가설(H₁)은 "β₁ ≠ 0"이다. 검정 통계량 t는 추정된 계수 값을 그 표준 오차로 나누어 계산한다. 이 t-통계량은 귀무가설이 참일 때 자유도가 n-2인 t-분포를 따른다. 계산된 t-통계량의 절대값이 임계값보다 크거나, 이에 해당하는 p-값이 유의수준(예: 0.05)보다 작으면 귀무가설을 기각하여 독립 변수의 효과가 통계적으로 유의하다고 결론 내린다.
절편 β₀에 대한 유의성 검정도 동일한 방식으로 수행할 수 있으나, 실제 분석에서 주 관심사는 대개 기울기 계수이다. 이 검정 결과는 신뢰 구간을 구축하는 데도 활용된다. β₁의 95% 신뢰 구간은 추정값 ± (t-임계값 × 표준 오차)로 계산되며, 이 구간에 0이 포함되지 않는다는 것은 계수가 유의하다는 것과 동일한 결론을 내리게 한다.
회귀 계수의 유의성 검정은 모델 해석의 근간이 되지만, 유의성만으로 변수 간 인과 관계를 증명할 수는 없으며, 다중 공선성이나 이상치 등의 문제가 검정 결과에 영향을 미칠 수 있음을 유의해야 한다.
5.2. 모델의 유의성 검정 (F-검정)
5.2. 모델의 유의성 검정 (F-검정)
단순 선형 회귀 모델이 전체적으로 통계적으로 유의미한지를 판단하기 위해 F-검정을 수행한다. 이 검정은 모델에 포함된 독립 변수가 종속 변수를 설명하는 데 유용한 정보를 제공하는지 여부를 평가한다. 즉, 추정된 회귀선이 단순히 평균을 사용하는 것보다 데이터를 더 잘 설명하는지를 검증하는 절차이다.
검정의 귀무가설은 모든 회귀 계수가 0이라는 것이다. 단순 선형 회귀에서는 이는 기울기 계수 β₁이 0임을 의미한다. 대립가설은 적어도 하나의 회귀 계수가 0이 아니라는 것이다. 검정 통계량은 회귀 제곱합과 잔차 제곱합의 비율을 기반으로 계산되며, 이는 F 분포를 따른다.
계산된 F 통계량이 유의수준에서의 임계값보다 크거나, 이에 대응하는 p-값이 매우 작으면 귀무가설을 기각한다. 이는 독립 변수 X가 종속 변수 Y의 변동을 설명하는 데 유의미한 기여를 한다고 해석할 수 있다. 이 검정은 결정 계수와 밀접한 관련이 있으며, 모델의 전반적인 적합도를 평가하는 중요한 도구이다.
F-검정은 분산 분석의 틀에서 수행되며, 총 제곱합이 회귀에 의해 설명되는 부분과 설명되지 않는 부분(잔차)으로 분해되는 원리를 활용한다. 이 검정을 통해 연구자는 단순 선형 회귀 모델을 사용하는 것이 타당한지에 대한 통계적 증거를 얻을 수 있다.
6. 응용
6. 응용
단순 선형 회귀는 그 직관적인 구조 덕분에 다양한 분야에서 폭넓게 응용된다. 가장 기본적인 용도는 예측이다. 독립 변수 X의 값을 알고 있을 때, 추정된 회귀 직선을 통해 종속 변수 Y의 값을 예측할 수 있다. 예를 들어, 광고 비용과 매출액의 관계를 모델링하여 특정 광고비 투자 시 예상 매출을 계산하는 데 활용된다. 또한 경제학이나 사회과학 연구에서 두 변수 간의 관계를 정량적으로 분석하고 설명하는 데 핵심 도구로 사용된다.
기계 학습 분야에서는 지도 학습의 기본 알고리즘으로 자리 잡고 있으며, 더 복잡한 모델의 구성 요소로도 쓰인다. 금융에서는 주가 수익률과 시장 지수 간의 관계를 분석하는 데, 공학에서는 실험 데이터를 통해 인과 관계를 규명하는 데 적용된다. 의학 연구에서는 특정 치료법의 용량과 환자 반응 간의 선형적 경향을 조사할 때도 단순 선형 회귀 모델이 빈번히 사용된다.
그러나 이러한 응용은 모델의 기본 가정이 충족될 때 유효한 결과를 제공한다. 따라서 실제 분석 시에는 산점도를 통한 선형성 확인, 잔차 분석을 통한 가정 검증이 선행되어야 하며, 상관 관계와 인과 관계를 혼동하지 않도록 주의해야 한다.
7. 한계
7. 한계
단순 선형 회귀는 직관적이고 해석이 용이한 장점이 있지만, 몇 가지 명확한 한계를 지닌다. 가장 큰 제약은 두 변수 간의 관계가 선형적이라는 가정에 기반한다는 점이다. 현실 세계의 많은 관계는 곡선적이거나 더 복잡한 패턴을 보이는데, 이러한 비선형 관계를 단순 선형 회귀로 모델링하면 부정확한 추정과 예측 오차가 커질 수 있다.
또 다른 중요한 한계는 이상치와 영향점에 매우 취약하다는 것이다. 데이터셋에 극단적인 값이 단 하나만 존재하더라도 전체 회귀선의 기울기와 절편 추정치에 큰 영향을 미쳐 모델을 왜곡시킬 수 있다. 이는 최소제곱법이 잔차의 제곱을 최소화하는 방식을 취하기 때문에 발생하는 문제이다.
단순 선형 회귀는 오직 하나의 독립 변수만을 고려할 수 있다. 이는 실제 현상을 설명하는 데 있어 다중 공선성 문제는 피할 수 있지만, 반대로 여러 설명 변수들의 복합적 영향을 동시에 분석할 수 없다는 제약으로 이어진다. 대부분의 사회 현상이나 자연 현상은 여러 요인이 복합적으로 작용하므로, 단일 변인 모델은 설명력이 제한될 수밖에 없다.
마지막으로, 단순 선형 회귀 분석으로 도출된 상관관계를 인과관계로 오해하기 쉽다는 점도 주의해야 한다. 두 변수 X와 Y가 통계적으로 유의미한 선형 관계를 보인다고 해서 반드시 X가 Y의 원인이라고 결론지을 수 없다. 이는 숨겨진 제3의 변수, 즉 교란 변수에 의해 관계가 나타날 가능성을 배제하지 못하기 때문이다.
