회귀분석
1. 개요
1. 개요
회귀분석은 통계학과 데이터 과학에서 널리 사용되는 핵심적인 분석 기법이다. 이 방법은 하나 이상의 독립 변수가 종속 변수에 미치는 영향을 정량적으로 모델링하고, 이를 바탕으로 미래 값을 예측하거나 변수 간의 인과 관계를 탐구하는 데 목적이 있다. 계량 경제학과 기계 학습을 포함한 다양한 연구 및 실무 분야의 기초를 형성한다.
회귀분석의 핵심은 변수들 간의 관계를 가장 잘 설명하는 수학적 모형, 즉 회귀 모형을 구축하는 것이다. 이 모형은 독립 변수의 변화에 따른 종속 변수의 평균적인 변화를 나타내는 회귀 계수를 추정하며, 관측값과 모형이 예측한 값 사이의 차이인 잔차를 분석하여 모형의 적합도를 평가한다. 분석의 주요 유형으로는 하나의 독립 변수를 사용하는 단순 선형 회귀와 두 개 이상의 독립 변수를 고려하는 다중 선형 회귀, 그리고 종속 변수가 범주형일 때 사용되는 로지스틱 회귀 등이 있다.
이 분석을 수행하고 결과를 신뢰하기 위해서는 데이터가 선형성, 독립성, 등분산성, 정규성 등의 기본 가정을 충족해야 한다. 이러한 가정이 위배될 경우 추정된 회귀 계수의 효율성이 떨어지거나 예측이 편향될 수 있으므로, 모형 구축 후 잔차 분석을 통한 가정 검토가 필수적이다. 또한 분석 과정에서는 다중공선성이나 이상치와 같은 문제를 주의 깊게 살펴야 한다.
회귀분석은 복잡한 현상에 대한 통찰을 제공하고 미래를 예측하는 강력한 도구이지만, 그 결과가 인과 관계를 증명하는 것은 아니며, 설정된 모형과 데이터의 범위 내에서만 유효한 해석이 가능하다는 점을 인지해야 한다. 따라서 도메인 지식과 함께 신중하게 적용되어야 한다.
2. 회귀분석의 기본 개념
2. 회귀분석의 기본 개념
2.1. 회귀분석의 정의와 목적
2.1. 회귀분석의 정의와 목적
회귀분석은 통계학적 분석 기법으로, 하나 이상의 독립 변수와 종속 변수 간의 관계를 수학적 모델로 설명하고 예측하는 방법이다. 이 분석의 근본적인 목적은 변수들 사이에 존재하는 체계적인 관계를 규명하여, 독립 변수의 변화가 종속 변수에 미치는 영향을 정량적으로 이해하고, 이를 바탕으로 미래의 값을 예측하는 데 있다.
회귀분석의 주요 용도는 크게 세 가지로 구분된다. 첫째는 변수 간의 인과 관계를 분석하여 어떤 요인이 결과에 영향을 미치는지 그 방향과 강도를 파악하는 것이다. 둘째는 구축된 모델을 이용해 새로운 독립 변수 값이 주어졌을 때 종속 변수의 값을 예측하는 것이다. 셋째는 방대한 데이터 안에 숨겨진 패턴이나 경향성을 발견하고 요약하는 데 활용된다.
이러한 분석은 기계 학습의 지도 학습 알고리즘으로, 데이터 과학의 예측 모델링, 계량 경제학의 실증 분석 등 다양한 학문과 실무 분야에서 핵심 도구로 사용된다. 회귀분석을 통해 도출된 회귀 계수는 독립 변수가 한 단위 변화할 때 종속 변수가 평균적으로 얼마나 변화하는지를 나타내며, 분석 후 남는 오차인 잔차를 검토하여 모델의 적합도를 평가한다.
2.2. 독립변수와 종속변수
2.2. 독립변수와 종속변수
회귀분석에서 독립 변수는 종속 변수에 영향을 주는 것으로 가정되는 변수이다. 설명 변수, 예측 변수라고도 불리며, 연구자가 조작하거나 관찰하여 그 값을 알고 있는 변수를 의미한다. 반면 종속 변수는 독립 변수의 영향을 받아 그 값이 결정되는 변수로, 반응 변수, 결과 변수라고도 한다. 회귀분석의 핵심 목적은 독립 변수의 변화에 따른 종속 변수의 변화를 설명하고 예측하는 모형을 구축하는 데 있다.
예를 들어, 광고비 지출(독립 변수)이 매출액(종속 변수)에 미치는 영향을 분석하거나, 공부 시간(독립 변수)과 시험 점수(종속 변수) 간의 관계를 규명할 때 회귀분석이 활용된다. 이때 독립 변수는 하나일 수도 있고(단순 회귀), 여러 개일 수도 있으며(다중 회귀), 종속 변수는 주로 연속형 수치 데이터이다. 로지스틱 회귀분석의 경우 종속 변수가 범주형(예: 합격/불합격)인 경우에 사용된다.
변수 간의 관계를 설정할 때는 이론적 배경이나 선행 연구를 바탕으로 인과 관계의 방향을 신중히 고려해야 한다. 즉, 어떤 변수가 원인(독립 변수)이고 어떤 변수가 결과(종속 변수)인지를 명확히 하는 것이 중요하다. 잘못된 변수 지정은 분석 결과의 해석을 무의미하게 만들 수 있다. 또한 다중공선성 문제를 피하기 위해 서로 높은 상관관계를 보이는 독립 변수들을 함께 모형에 포함시키는 것은 주의가 필요하다.
2.3. 회귀 모형과 회귀 계수
2.3. 회귀 모형과 회귀 계수
회귀 모형은 독립 변수와 종속 변수 간의 관계를 수학적으로 표현한 방정식이다. 가장 기본적인 형태인 단순 선형 회귀 모형은 하나의 독립 변수 X와 하나의 종속 변수 Y 사이의 선형 관계를 Y = β0 + β1X + ε 와 같이 나타낸다. 여기서 β0는 절편, β1은 기울기에 해당하는 회귀 계수이며, ε는 오차항 또는 잔차를 의미한다. 이 모형은 독립 변수의 변화에 따른 종속 변수의 평균적인 변화를 설명한다.
회귀 계수는 모형의 핵심으로, 각 독립 변수가 종속 변수에 미치는 영향의 크기와 방향을 수치화한다. 예를 들어, β1은 독립 변수 X가 한 단위 증가할 때 종속 변수 Y가 평균적으로 얼마나 변화하는지를 나타낸다. 계수의 부호는 영향의 방향(양의 관계 또는 음의 관계)을 보여준다. 이러한 계수는 최소제곱법과 같은 방법을 통해 관측된 데이터로부터 추정된다.
다중 선형 회귀 모형으로 확장되면, 여러 개의 독립 변수(X1, X2, ..., Xk)를 동시에 고려할 수 있다. 이때 모형은 Y = β0 + β1X1 + β2X2 + ... + βkXk + ε 의 형태를 취하며, 각 회귀 계수 β1부터 βk는 다른 독립 변수의 영향이 고정되었다고 가정할 때, 해당 독립 변수의 순수한 영향력을 의미한다. 따라서 회귀 모형과 계수를 올바르게 해석하는 것은 인과 관계 분석이나 예측을 수행하는 데 필수적이다.
3. 회귀분석의 주요 유형
3. 회귀분석의 주요 유형
3.1. 단순 선형 회귀분석
3.1. 단순 선형 회귀분석
단순 선형 회귀분석은 가장 기본적인 형태의 회귀분석이다. 이 방법은 하나의 독립 변수와 하나의 종속 변수 사이의 선형 관계를 모델링한다. 즉, 독립 변수 X의 변화에 따라 종속 변수 Y가 어떻게 변하는지를 직선의 방정식(Y = β0 + β1X + ε)으로 설명한다. 여기서 β0는 절편, β1은 기울기(회귀 계수)를 의미하며, ε은 오차항이다. 이 분석의 주요 목적은 두 변수 간의 관계를 정량화하고, 주어진 X 값에 대한 Y 값을 예측하는 것이다.
단순 선형 회귀 모형의 파라미터, 즉 절편과 기울기는 주로 최소제곱법을 통해 추정된다. 이 방법은 실제 관측값과 회귀 직선으로부터 예측된 값 사이의 차이인 잔차의 제곱합을 최소화하는 직선을 찾는다. 추정된 회귀 계수 β1은 "독립 변수가 한 단위 증가할 때 종속 변수의 평균적인 변화량"이라는 중요한 해석을 갖는다. 예를 들어, 광고비(X)와 매출액(Y)의 관계를 분석할 때, β1이 2라면 광고비를 1만원 더 투자할 때 평균적으로 매출액이 2만원 증가한다는 의미이다.
이 분석의 결과는 결정계수(R²)와 같은 지표로 평가된다. 결정계수는 종속 변수의 변동 중 독립 변수로 설명될 수 있는 비율을 나타내며, 0에서 1 사이의 값을 가진다. 값이 1에 가까울수록 모형의 설명력이 높다고 볼 수 있다. 또한, 회귀 계수의 통계적 유의성은 t-검정을 통해 검증된다. 이 검정은 기울기 β1이 실제로 0이 아닌지, 즉 독립 변수가 종속 변수에 유의미한 영향을 미치는지를 판단하는 기준을 제공한다.
단순 선형 회귀분석은 그 개념이 직관적이고 적용이 간편하여 통계학 입문 교육이나 초기 데이터 분석에서 널리 사용된다. 또한, 기계 학습에서는 보다 복잡한 알고리즘의 기초가 되는 개념으로 중요하게 다루어진다. 그러나 이 분석은 변수 간 관계가 선형이라는 강한 가정에 의존하므로, 실제 관계가 비선형일 경우 잘못된 결론을 도출할 위험이 있다.
3.2. 다중 선형 회귀분석
3.2. 다중 선형 회귀분석
다중 선형 회귀분석은 두 개 이상의 독립 변수가 하나의 종속 변수에 미치는 영향을 동시에 분석하는 통계적 방법이다. 단순 선형 회귀분석이 하나의 설명 변수만을 고려하는 반면, 다중 선형 회귀분석은 여러 설명 변수를 포함하여 보다 현실 세계의 복잡한 관계를 더 정확하게 모델링할 수 있다. 이 기법은 경제학, 금융, 공학, 사회과학 등 다양한 분야에서 인과 관계를 규명하거나 예측 모델을 구축하는 데 널리 활용된다.
다중 선형 회귀 모형의 일반적인 형태는 Y = β0 + β1X1 + β2X2 + ... + βkXk + ε 로 표현된다. 여기서 Y는 종속 변수, X1부터 Xk는 독립 변수, β0는 절편, β1부터 βk는 각 독립 변수에 대한 회귀 계수를 의미한다. 각 회귀 계수는 다른 모든 독립 변수가 고정되어 있을 때, 해당 독립 변수가 한 단위 변화할 때 종속 변수의 평균적인 변화량을 나타낸다. ε는 오차 항으로, 모형으로 설명되지 않는 무작위 변동을 의미한다.
다중 선형 회귀분석을 수행할 때는 다중공선성에 주의해야 한다. 이는 독립 변수들 간에 강한 상관관계가 존재할 때 발생하는 문제로, 개별 회귀 계수의 추정치를 불안정하게 만들고 해석을 어렵게 할 수 있다. 이를 진단하기 위해 분산팽창지수(VIF)를 계산하거나 상관 행렬을 검토하는 방법이 사용된다. 또한, 단순 선형 회귀분석과 마찬가지로 선형성, 독립성, 등분산성, 정규성이라는 기본 가정을 충족하는지 잔차 분석을 통해 확인해야 한다.
분석 결과는 결정계수(R²)와 수정된 결정계수를 통해 모형의 전체적 설명력을 평가하며, 각 회귀 계수에 대한 t-검정을 통해 해당 변수의 영향이 통계적으로 유의미한지 판단한다. 또한, 모든 독립 변수가 함께 종속 변수를 설명하는 데 유의미한 기여를 하는지를 검정하는 F-검정도 중요한 평가 지표가 된다.
3.3. 로지스틱 회귀분석
3.3. 로지스틱 회귀분석
로지스틱 회귀분석은 종속 변수가 범주형인 경우, 특히 두 개의 범주(예: 성공/실패, 참/거짓, 0/1)를 가진 이진 변수를 예측하거나 설명하는 데 사용되는 회귀 분석의 한 유형이다. 이는 독립 변수와 종속 변수 간의 선형 관계를 가정하는 선형 회귀분석과 달리, 독립 변수들의 선형 결합을 통해 종속 변수가 특정 범주에 속할 확률을 모델링한다. 이 확률은 로지스틱 함수를 통해 0과 1 사이의 값으로 변환된다.
로지스틱 회귀분석의 핵심은 오즈비를 활용하는 데 있다. 오즈는 특정 사건이 발생할 확률과 발생하지 않을 확률의 비율을 의미한다. 로지스틱 회귀 모형은 독립 변수의 변화에 따른 오즈비의 로그 값, 즉 로짓의 변화가 선형적이라고 가정한다. 이는 결과적으로 독립 변수가 한 단위 증가할 때, 종속 변수의 특정 범주에 대한 오즈가 몇 배 증가하는지를 나타내는 회귀 계수를 추정할 수 있게 해준다.
이 분석 방법은 의학 연구에서 질병 발병 위험 요인을 규명하거나, 금융 분야에서 신용 평가 모형을 구축하며, 마케팅에서 고객의 구매 여부를 예측하는 등 다양한 분야에서 널리 응용된다. 기계 학습 분야에서는 분류 문제를 해결하는 기본적인 알고리즘 중 하나로 자리 잡고 있다.
로지스틱 회귀분석을 수행할 때는 최대우도추정법을 통해 모수를 추정하며, 모형의 적합도를 평가하기 위해 이탈도나 호스머-렘쇼 검정 등을 사용한다. 또한 다중공선성이나 이상치와 같은 문제는 선형 회귀분석과 마찬가지로 결과 해석에 영향을 미칠 수 있으므로 주의가 필요하다.
3.4. 다항 회귀분석
3.4. 다항 회귀분석
다항 회귀분석은 독립 변수와 종속 변수 간의 관계가 직선이 아닌 곡선 형태일 때 사용하는 회귀분석의 한 유형이다. 단순히 변수 간의 선형 관계를 가정하는 단순 선형 회귀나 다중 선형 회귀와 달리, 독립 변수의 2차항(제곱)이나 3차항(세제곱)과 같은 고차항을 모형에 포함시켜 비선형 관계를 설명한다. 예를 들어, 제품의 생산량과 원가 간의 관계나 광고 비용 증가에 따른 매출 증가율의 변화와 같이, 변수 간 영향이 일정하지 않고 변화하는 패턴을 분석하는 데 적합하다.
이 분석 방법의 핵심은 기존의 선형 모형을 확장하여, 독립 변수 X 외에도 X², X³ 등의 새로운 항을 독립 변수로 추가하는 것이다. 따라서 모형의 기본 형태는 Y = β₀ + β₁X + β₂X² + ... + βₙXⁿ + ε와 같이 표현된다. 여기서 β₁, β₂ 등의 회귀 계수는 각 항이 종속 변수 Y에 미치는 영향을 나타낸다. 모형의 최적 차수(예: 2차, 3차)는 데이터의 패턴을 가장 잘 설명하면서도 과적합을 피하도록 선택해야 한다.
다항 회귀분석은 기계 학습의 회귀 분석 문제나 데이터 과학에서 복잡한 데이터 패턴을 모델링할 때 널리 활용된다. 그러나 고차항을 많이 포함할수록 모형이 복잡해지고 훈련 데이터에 지나치게 맞추어져 과적합이 발생하기 쉬우므로 주의가 필요하다. 또한, 모형 해석이 선형 회귀에 비해 상대적으로 어려워질 수 있다.
4. 회귀분석의 가정
4. 회귀분석의 가정
4.1. 선형성
4.1. 선형성
선형성은 회귀분석의 가장 기본적인 가정이다. 이는 독립 변수와 종속 변수 간의 관계가 선형적, 즉 직선의 형태로 표현될 수 있어야 함을 의미한다. 다시 말해, 독립 변수의 값이 변할 때 종속 변수의 기대값도 일정한 비율로 변화한다는 가정이다. 이 가정이 충족되어야 회귀 모형을 통해 추정된 회귀 계수가 변수 간 관계를 정확히 설명할 수 있다.
선형성 가정이 위반되는 경우, 즉 두 변수 간 관계가 곡선이나 다른 복잡한 형태를 보일 때, 선형 회귀 모형을 사용하면 잘못된 결론을 도출할 위험이 크다. 예를 들어, 실제 관계가 2차 함수 형태인데 선형 모형을 적합하면, 모형의 예측력이 현저히 떨어지고 잔차에 체계적인 패턴이 나타나게 된다. 따라서 분석 과정에서 산점도를 그려 변수 간 관계를 시각적으로 확인하는 것은 필수적인 단계이다.
선형성 가정이 성립하지 않는 경우, 분석가는 모형의 형태를 변환해야 한다. 대표적인 방법으로는 종속 변수나 독립 변수에 로그나 제곱근 등의 변환을 가하거나, 다항 회귀분석을 통해 2차항 이상의 항을 모형에 포함시키는 것이 있다. 또한, 로지스틱 회귀분석이나 일반화 선형 모형과 같이 선형성 가정을 완화한 다른 회귀 기법을 고려할 수도 있다.
4.2. 독립성
4.2. 독립성
회귀분석의 가정 중 하나인 독립성은 관측된 데이터의 오차, 즉 잔차들이 서로 독립적이어야 한다는 것을 의미한다. 이는 한 관측치의 오차가 다른 관측치의 오차에 영향을 미치지 않아야 함을 말한다. 독립성이 위반되는 대표적인 경우는 시계열 데이터를 분석할 때 발생하는 자기상관 현상이다. 예를 들어, 시간의 흐름에 따라 수집된 데이터에서는 이전 시점의 오차가 다음 시점의 오차와 상관관계를 가질 수 있다.
독립성 가정이 지켜지지 않으면 회귀분석 결과의 신뢰도가 떨어진다. 특히, 회귀 계수의 표준 오차를 과소평가하게 되어, 변수 간 관계의 통계적 유의성을 실제보다 과대평가하는 오류를 범할 수 있다. 이는 가설 검정에서 잘못된 결론을 이끌어낼 위험이 있다. 따라서, 특히 시간 또는 공간적 순서가 있는 데이터를 분석할 때는 이 가정을 반드시 점검해야 한다.
독립성 가정을 검증하는 방법으로는 잔차 분석을 실시하여 잔차들을 시각적으로 살펴보거나, 더빈-왓슨 검정과 같은 통계적 검정을 활용하는 것이 일반적이다. 만약 독립성이 위반되었다고 판단되면, 일차 차분이나 자기회귀 모형과 같은 대안적 모델링 기법을 고려해야 한다.
4.3. 등분산성
4.3. 등분산성
등분산성은 회귀분석의 기본 가정 중 하나로, 오차의 분산이 모든 독립 변수 값에 대해 일정하다는 것을 의미한다. 이는 잔차의 흩어진 정도가 예측값의 크기나 독립 변수의 수준에 관계없이 균일하게 유지되어야 함을 나타낸다. 등분산성이 성립하면 모형의 추정이 효율적이고, 회귀 계수에 대한 가설 검정 결과가 신뢰할 수 있게 된다.
등분산성이 위반되는 경우를 이분산성이라고 한다. 이분산성이 존재하면 최소제곱법으로 추정된 회귀 계수는 여전히 불편추정량이지만, 그 분산이 최소가 아니게 되어 효율성이 떨어진다. 더 중요한 문제는 표준 오차의 추정이 편향되어, 회귀 계수의 유의성을 판단하는 t-검정이나 모형 전체의 유의성을 판단하는 F-검정 결과가 신뢰할 수 없게 될 수 있다는 점이다.
이분산성의 존재 여부는 주로 잔차 분석을 통해 시각적으로 확인한다. 잔차 대 예측값 산점도를 그렸을 때, 잔차들이 특정 패턴(예: 깔때기 모양, 곡선 모양) 없이 0을 중심으로 무작위적으로 퍼져 있어야 등분산성을 만족한다고 볼 수 있다. 공식적인 검정 방법으로는 브로슈-페이건 검정이나 화이트 검정 등이 널리 사용된다.
등분산성 가정이 위반되었을 때는 가중 최소제곱법을 적용하거나, 변수 변환(예: 로그 변환)을 실시하는 등의 방법으로 문제를 해결할 수 있다. 또한, 이분산성-일관 표준 오차를 사용하여 표준 오차를 조정함으로써 가설 검정의 신뢰성을 높일 수도 있다.
4.4. 정규성
4.4. 정규성
정규성 가정은 회귀분석에서 모형의 잔차가 정규 분포를 따른다는 것을 의미한다. 이는 최소제곱법을 통한 모수 추정과 가설 검정의 타당성을 보장하기 위한 핵심적인 조건 중 하나이다.
구체적으로, 회귀 계수의 표준 오차를 계산하고, 계수의 유의성을 판단하는 t-검정이나 모형 전체의 유의성을 평가하는 F-검정을 수행할 때, 이론적 근거는 잔차가 정규 분포를 따른다는 전제에 기반한다. 만약 정규성 가정이 심각하게 위반되면, 이러한 검정 결과의 p-값이 신뢰할 수 없게 되어 잘못된 통계적 결론을 내릴 위험이 있다.
정규성 가정을 검토하는 방법으로는 잔차 분석을 시행한다. Q-Q 도표를 그려 잔차의 분포가 대각선에 얼마나 잘 일치하는지 시각적으로 확인하거나, 콜모고로프-스미르노프 검정이나 샤피로-윌크 검정과 같은 정규성 검정을 실시할 수 있다. 잔차의 히스토그램을 살펴보는 것도 일반적인 접근법이다.
정규성 가정이 충족되지 않는 경우, 데이터 변환을 적용하거나(예: 로그 변환), 로버스트 회귀 방법을 사용하는 등의 대안을 고려할 수 있다. 또한, 표본 크기가 충분히 크다면 중심극한정리에 의해 정규성 가정의 엄격함이 일부 완화될 수 있다.
5. 회귀분석 수행 과정
5. 회귀분석 수행 과정
5.1. 모형 설정
5.1. 모형 설정
회귀분석 수행 과정의 첫 단계는 모형 설정이다. 이는 분석의 전체적인 방향과 틀을 결정하는 중요한 과정으로, 연구 질문에 맞게 적절한 회귀 모형을 선택하고 구성하는 작업을 포함한다.
모형 설정은 먼저 연구 목적에 따라 종속 변수와 독립 변수를 명확히 정의하는 것에서 시작한다. 예를 들어, 주택 가격을 예측하는 분석에서는 주택 가격이 종속 변수가 되고, 주택의 크기, 위치, 방의 개수 등이 독립 변수로 고려될 수 있다. 이후에는 이러한 변수들 간의 관계를 가장 잘 설명할 수 있는 수학적 모형을 선택해야 한다. 변수 간 관계가 직선적이라 판단되면 선형 회귀 모형을, 곡선적 관계가 예상되면 다항 회귀 모형을 고려할 수 있다. 또한 종속 변수가 범주형(예: 합격/불합격)일 경우 로지스틱 회귀와 같은 일반화 선형 모형을 선택한다.
모형을 구성할 때는 분석의 목적과 이론적 배경, 그리고 데이터의 특성을 종합적으로 고려해야 한다. 불필요한 변수를 포함하면 과적합의 위험이 커지고, 중요한 변수를 누락하면 모형의 설명력이 떨어질 수 있다. 따라서 변수 선택 기법을 활용하거나, 도메인 지식을 바탕으로 초기 모형을 설계하는 것이 일반적이다. 이 단계에서 설정된 모형은 이후 최소제곱법을 통한 모수 추정과 잔차 분석을 통한 검증의 대상이 된다.
5.2. 모수 추정 (최소제곱법)
5.2. 모수 추정 (최소제곱법)
회귀분석에서 모수 추정은 설정된 회귀 모형의 미지수인 회귀 계수를 실제 데이터를 바탕으로 계산하는 과정이다. 가장 널리 사용되는 추정 방법은 최소제곱법이다. 이 방법의 핵심 목표는 관측된 데이터와 모형이 예측한 값 사이의 차이, 즉 잔차의 제곱합을 최소화하는 회귀 계수를 찾는 것이다. 이렇게 찾아진 계수들은 데이터에 가장 잘 맞는 직선 또는 평면을 정의하게 된다.
최소제곱법은 특히 선형 회귀분석에서 표준적인 추정 방법으로 자리 잡았다. 단순 선형 회귀에서는 하나의 독립 변수와 종속 변수 간의 관계를 가장 잘 나타내는 직선의 기울기와 절편을 계산한다. 다중 선형 회귀로 확장되면, 여러 독립 변수들의 영향을 종합적으로 고려하여 최적의 회귀 계수 집합을 도출한다. 이 추정 과정은 통계학과 계량 경제학에서 모형의 핵심 파라미터를 결정하는 기초가 된다.
최소제곱법으로 추정된 회귀 계수는 해석이 직관적이라는 장점을 가진다. 각 계수는 해당 독립 변수가 한 단위 변화할 때 종속 변수가 평균적으로 얼마나 변화하는지를 나타낸다. 또한, 이 방법은 통계적 성질이 잘 연구되어 있어 계수의 표준 오차를 계산하고 이후의 유의성 검정을 수행하는 데 필수적인 기초를 제공한다. 따라서 모수 추정은 단순히 수치를 계산하는 것을 넘어, 전체 회귀분석 결과의 신뢰성을 평가하는 출발점이 된다.
5.3. 모형 평가 (결정계수, F-검정)
5.3. 모형 평가 (결정계수, F-검정)
회귀 모형을 추정한 후에는 그 모형이 데이터를 얼마나 잘 설명하고 예측하는지 평가하는 단계가 필요하다. 모형 평가는 주로 모형의 설명력과 통계적 유의성을 검정하는 과정으로 이루어진다. 가장 널리 사용되는 평가 지표는 결정계수이며, 모형 전체의 유의성을 판단하기 위해 F-검정을 실시한다.
결정계수는 R²로 표기되며, 0에서 1 사이의 값을 가진다. 이 값은 종속 변수의 총 변동 중에서 회귀 모형이 설명할 수 있는 변동의 비율을 의미한다. 결정계수가 1에 가까울수록 모형이 데이터를 완벽하게 설명한다고 볼 수 있으며, 0에 가까우면 모형의 설명력이 낮음을 나타낸다. 그러나 결정계수는 독립 변수의 수가 증가하면 자연스럽게 높아지는 경향이 있어, 변수의 수를 고려한 수정 결정계수를 함께 살펴보는 것이 일반적이다.
모형 전체의 통계적 유의성을 평가하기 위해서는 F-검정을 수행한다. 이 검정은 '모든 회귀 계수가 0이다'라는 귀무가설을 검증한다. 검정 결과 계산된 F-통계량이 크고 그에 따른 p-값이 매우 작으면(일반적으로 0.05 미만), 귀무가설을 기각하게 된다. 이는 적어도 하나의 독립 변수가 종속 변수를 설명하는 데 유의미한 기여를 한다는 것을 의미하며, 설정한 회귀 모형이 통계적으로 유의하다고 판단할 수 있는 근거가 된다.
따라서, 결정계수와 F-검정은 회귀 분석 결과를 해석할 때 가장 먼저 확인해야 할 핵심 요소이다. 결정계수는 모형의 예측 정확도나 설명력을 직관적으로 보여주고, F-검정은 해당 모형이 의미 있는 결과인지 통계적으로 확인시켜 준다. 이 두 가지 평가를 통해 분석자는 추정된 모형의 전반적인 적합도를 판단하고, 다음 단계인 개별 계수의 검정이나 잔차 분석으로 나아갈 수 있다.
5.4. 가정 검토 (잔차 분석)
5.4. 가정 검토 (잔차 분석)
회귀분석에서 설정한 모형이 적절한지 판단하기 위해 잔차 분석을 실시한다. 잔차는 관측값과 모형이 예측한 값의 차이로, 모형이 데이터를 얼마나 잘 설명하지 못하는지를 나타낸다. 이 분석은 회귀분석의 기본 가정인 선형성, 독립성, 등분산성, 정규성이 실제 데이터에 대해 만족되는지 검토하는 핵심 과정이다.
잔차 분석은 주로 잔차의 패턴을 시각적으로 살펴보는 방법으로 진행된다. 산점도를 활용하여 잔차와 예측값, 또는 잔차와 독립변수 간의 관계를 플롯한다. 예를 들어, 잔차 대 예측값 플롯에서 패턴이 무작위적으로 분포하면 선형성과 등분산성 가정을 지지하는 증거가 된다. 반면, 특정 곡선 형태나 깔때기 모양이 보이면 가정이 위반되었을 가능성이 있다. 또한, Q-Q 플롯을 통해 잔차가 정규 분포를 따르는지 확인한다.
이러한 시각적 검토를 통해 모형의 결함을 발견하면, 이를 보완하기 위한 조치를 취할 수 있다. 비선형 관계가 의심될 경우 변수 변환을 고려하거나, 다항 회귀분석을 적용할 수 있다. 등분산성이 만족되지 않으면 가중 최소제곱법을 사용할 수 있으며, 독립성이 위반된 경우 시계열 분석 기법을 고려해야 한다. 따라서 잔차 분석은 단순한 검증을 넘어 보다 나은 모형을 구축하기 위한 실질적인 피드백을 제공하는 중요한 단계이다.
6. 회귀분석 결과 해석
6. 회귀분석 결과 해석
6.1. 회귀 계수의 의미와 유의성 검정 (t-검정)
6.1. 회귀 계수의 의미와 유의성 검정 (t-검정)
회귀 계수는 회귀분석 모형에서 독립 변수가 종속 변수에 미치는 영향을 정량적으로 나타내는 값이다. 단순 선형 회귀에서는 절편과 기울기로 구성되며, 다중 선형 회귀에서는 각 독립 변수마다 하나의 회귀 계수가 할당된다. 이 계수의 부호는 영향의 방향(정비례 또는 반비례)을, 크기는 영향의 강도를 의미한다. 예를 들어, 기울기 계수가 양수이면 독립 변수가 증가할 때 종속 변수도 증가하는 관계를 나타낸다.
회귀 계수의 통계적 유의성을 판단하기 위해 t-검정이 수행된다. 이 검정은 '해당 독립 변수의 계수가 0이다'라는 귀무가설을 검증한다. t-통계량은 계수 추정값을 그 표준 오차로 나눈 값으로 계산되며, 이 값이 임계값보다 크거나 p-값이 매우 작으면 귀무가설을 기각한다. 이는 해당 계수가 0이 아니며, 독립 변수가 종속 변수를 설명하는 데 통계적으로 유의미한 기여를 한다는 증거가 된다.
회귀 계수의 해석은 모형의 유형에 따라 달라진다. 선형 회귀에서는 계수가 종속 변수의 평균 변화량을 의미하지만, 로지스틱 회귀분석에서는 오즈비의 변화로 해석된다. 또한, 계수의 실제 중요도는 해당 변수의 측정 단위에 의존할 수 있으므로, 표준화 계수를 참고하여 상대적 영향력을 비교하기도 한다.
따라서 회귀분석 결과를 해석할 때는 회귀 계수의 크기와 방향뿐만 아니라, t-검정을 통한 유의성 판단을 반드시 함께 고려해야 한다. 통계적으로 유의하지 않은 계수는 모형에 포함할 가치가 낮으며, 이를 무시하지 않으면 잘못된 결론을 도출할 위험이 있다.
6.2. 예측 구간
6.2. 예측 구간
회귀분석에서 예측 구간은 추정된 회귀 모형을 사용하여 새로운 독립 변수 값에 대해 종속 변수의 미래 관측값이 어느 범위에 속할지를 확률적으로 나타내는 구간이다. 이는 단순히 점 추정치를 제공하는 예측값과 달리, 예측의 불확실성을 고려한 구간 추정을 의미한다.
예측 구간은 일반적으로 특정 신뢰 수준(예: 95%) 하에서 계산되며, 이 구간 안에 실제 미래 관측값이 포함될 확률을 나타낸다. 구간의 폭은 표준 오차, 잔차의 변동성, 그리고 예측하고자 하는 점이 표본 평균으로부터 얼마나 떨어져 있는지에 따라 결정된다. 예측점이 데이터의 중심에서 멀어질수록 예측의 불확실성이 커지므로 예측 구간의 폭도 넓어지는 것이 일반적이다.
예측 구간을 계산할 때 고려해야 할 불확실성의 원천은 크게 두 가지이다. 첫째는 회귀 계수 추정 자체의 불확실성이며, 둘째는 개별 관측치에 내재된 무작위 오차의 불확실성이다. 따라서 신뢰 구간이 모델 파라미터(예: 평균 반응)의 불확실성을 다루는 반면, 예측 구간은 개별적인 새로운 관측값의 불확실성을 다루므로 그 폭이 더 넓다.
이러한 예측 구간은 실무에서 매우 유용하게 활용된다. 예를 들어, 수요 예측이나 재고 관리에서 미래 수요량의 가능한 범위를 제시하거나, 금융 분야에서 자산 가격의 변동 폭을 예측하는 데 사용될 수 있다. 이를 통해 단순한 점 예측보다 더 풍부한 정보를 바탕으로 위험 관리와 의사결정을 할 수 있게 해준다.
7. 회귀분석의 한계와 주의점
7. 회귀분석의 한계와 주의점
7.1. 다중공선성
7.1. 다중공선성
다중공선성은 회귀분석에서 사용되는 두 개 이상의 독립 변수들이 서로 높은 상관관계를 보이는 현상을 가리킨다. 이는 모형 내 변수들이 서로의 정보를 중복해서 포함하고 있음을 의미한다. 다중공선성이 존재할 경우, 개별 회귀 계수의 추정치가 불안정해지고 그 표준오차가 비정상적으로 커져, 계수의 통계적 유의성을 판단하는 t-검정 결과를 왜곡시킬 수 있다. 또한, 모형의 예측력 자체에는 큰 영향을 미치지 않을 수 있지만, 각 독립변수가 종속변수에 미치는 고유한 영향을 분리해 해석하기 어렵게 만드는 근본적인 문제를 야기한다.
다중공선성을 탐지하는 주요 방법으로는 분산팽창지수(VIF) 계산이 널리 사용된다. VIF는 한 독립변수가 다른 독립변수들에 의해 설명되는 정도를 나타내는 지표로, 일반적으로 10을 초과하면 심각한 다중공선성이 존재한다고 판단한다. 그 외에도 독립변수들 간의 상관관계 행렬을 살펴보거나, 공차한계를 검토하는 방법도 활용된다.
이 문제를 해결하기 위한 대표적인 접근법은 상관관계가 매우 높은 변수들 중 하나를 모형에서 제거하는 것이다. 또한, 주성분 분석(PCA)이나 릿지 회귀, 라쏘 회귀와 같은 정규화 기법을 적용하여 변수들의 정보를 압축하거나 계수 추정 방식을 변경함으로써 다중공선성의 영향을 완화시킬 수 있다. 다만, 변수 제거 시 분석가의 판단이 개입되므로, 연구의 목적과 이론적 배경을 고려하여 신중하게 결정해야 한다.
7.2. 이상치와 영향점
7.2. 이상치와 영향점
회귀분석에서 이상치는 다른 관측치들과 현저히 다른 값을 가지는 데이터 포인트를 의미한다. 이러한 이상치는 잔차 분석을 통해 발견되며, 모델의 적합도를 왜곡하거나 회귀 계수 추정에 부정적인 영향을 미칠 수 있다. 이상치는 단순히 종속 변수의 값이 크거나 작은 경우뿐만 아니라, 독립 변수의 조합이 특이한 경우에도 발생할 수 있다.
영향점은 모형의 적합 결과에 지나치게 큰 영향을 미치는 관측치를 말한다. 모든 영향점은 이상치일 수 있지만, 모든 이상치가 영향점인 것은 아니다. 영향점은 레버리지와 잔차의 크기를 함께 고려하여 판단하며, 쿡의 거리나 DFFITS 같은 지표를 사용하여 정량적으로 측정한다. 높은 레버리지를 가진 데이터 포인트는 모델의 예측선을 자신 쪽으로 끌어당기는 힘이 강해 영향점이 될 가능성이 높다.
이상치와 영향점을 다루는 방법은 여러 가지가 있다. 먼저 데이터 오류인지 확인하고, 오류라면 수정 또는 제거한다. 만약 유효한 데이터라면, 로버스트 회귀와 같은 이상치에 덜 민감한 분석 방법을 적용할 수 있다. 또는 변수 변환을 통해 데이터의 분포를 조정하는 방법도 있다. 분석 시에는 이러한 점들을 반드시 검토하여 모델의 신뢰성을 확보해야 한다.
7.3. 과적합
7.3. 과적합
과적합은 회귀분석 모델이 학습에 사용된 훈련 데이터에 지나치게 맞춰져, 새로운 데이터나 실제 현상을 제대로 예측하지 못하는 현상을 가리킨다. 이는 모델이 데이터의 일반적인 패턴뿐만 아니라 노이즈나 우연한 변동까지 학습함으로써 발생한다. 결과적으로 훈련 데이터에서는 매우 높은 정확도를 보이지만, 검증 데이터나 테스트 데이터에서는 성능이 크게 떨어지는 문제가 생긴다. 이러한 과적합은 특히 모델이 복잡하거나 데이터의 양이 적을 때 자주 나타난다.
과적합을 유발하는 주요 원인은 다음과 같다. 첫째, 모델의 복잡도가 지나치게 높은 경우다. 예를 들어 다항 회귀분석에서 다항식의 차수를 필요 이상으로 높이거나, 다중 선형 회귀분석에서 관련성이 낮은 많은 수의 독립 변수를 포함시키는 경우가 이에 해당한다. 둘째, 학습에 사용할 수 있는 데이터의 양이 충분하지 않은 경우에도 모델이 일반화되지 못하고 특정 데이터셋에만 최적화될 수 있다.
과적합을 방지하고 모델의 일반화 성능을 높이기 위한 여러 방법이 사용된다. 대표적인 방법으로는 정규화 기법이 있다. 릿지 회귀나 라쏘 회귀는 회귀 계수에 제약을 가해 계수의 크기를 줄임으로써 모델 복잡도를 통제한다. 또한, 충분한 양의 데이터를 확보하거나, 교차 검증을 통해 모델 성능을 평가하는 것도 효과적이다. 의사결정나무나 신경망 같은 복잡한 모델에서는 가지치기나 드롭아웃 같은 기법이 과적합 방지에 활용된다.
