결정 계수
1. 개요
1. 개요
결정 계수는 회귀 분석에서 사용되는 주요 평가 지표 중 하나이다. 이는 종속 변수의 변동성 중 독립 변수를 통해 얼마나 설명할 수 있는지를 비율로 나타낸다. 일반적으로 R²로 표기되며, 그 값은 0에서 1 사이를 가진다. 결정 계수가 1에 가까울수록 회귀 모형이 데이터를 잘 설명하고 적합도가 높다고 평가한다. 이 개념은 통계학뿐만 아니라 기계 학습 모델의 성능을 검증하는 데에도 널리 활용된다.
결정 계수의 핵심은 총 변동을 설명 가능한 변동과 설명 불가능한 변동으로 분해하는 데 있다. 총 변동은 편차 제곱합으로 계산되며, 이 중 회귀 모형이 설명하는 부분이 회귀 제곱합이다. 결정 계수는 이 회귀 제곱합이 총 제곱합에서 차지하는 비율로 정의된다. 따라서 이 값은 모형의 예측력과 설명력을 직관적으로 파악할 수 있게 해준다.
그러나 결정 계수는 독립 변수의 수가 증가하면 단순히 수치가 높아지는 경향이 있어 주의가 필요하다. 이러한 단점을 보완하기 위해 자유도를 고려한 수정된 결정 계수가 사용되기도 한다. 결정 계수를 해석할 때는 수치 자체보다 모형의 목적과 맥락, 그리고 잔차 분석 등 다른 검증 방법과 함께 종합적으로 고려하는 것이 바람직하다.
2. 정의
2. 정의
결정 계수는 회귀 분석에서 사용되는 통계량으로, 종속 변수의 변동성 중 독립 변수를 통해 얼마나 설명할 수 있는지를 비율로 나타낸다. 이는 회귀 모형의 설명력이나 적합도를 평가하는 핵심 지표로 활용된다. 결정 계수는 보통 R²로 표기되며, 그 값의 범위는 0에서 1 사이에 존재한다.
값이 1에 가까울수록 모형이 데이터를 완벽하게 설명한다는 것을 의미하며, 즉 독립 변수가 종속 변수의 변동을 거의 모두 설명한다고 해석할 수 있다. 반대로 값이 0에 가까우면 회귀 모형이 종속 변수의 변동을 거의 설명하지 못한다는 것을 의미한다. 이 지표는 통계학뿐만 아니라 기계 학습과 같은 다양한 데이터 분석 분야에서 모델의 성능을 간단히 파악하는 데 널리 사용된다.
결정 계수의 정의에 따르면, 이는 총 변동 중 회귀 모형으로 설명되는 변동이 차지하는 비율이다. 여기서 총 변동은 종속 변수의 실제 값과 평균 간의 차이의 제곱합이며, 설명된 변동은 예측 값과 평균 간의 차이의 제곱합이다. 따라서 결정 계수는 회귀선이 실제 데이터 점들을 얼마나 잘 따라가는지를 수치화한 것이라고 볼 수 있다.
이 개념은 단순 선형 회귀와 다중 선형 회귀 모두에 적용되며, 모형의 유용성을 판단하는 첫 번째 기준으로 자주 제시된다. 그러나 결정 계수만으로 모형의 적절성을 완전히 판단할 수는 없으며, 이에 대한 해석에는 주의가 필요하다.
3. 계산 방법
3. 계산 방법
3.1. 단순 선형 회귀에서의 결정 계수
3.1. 단순 선형 회귀에서의 결정 계수
단순 선형 회귀에서의 결정 계수는 하나의 독립 변수와 하나의 종속 변수 간의 선형 관계를 모델링할 때 사용된다. 이 경우 결정 계수는 종속 변수의 총 변동 중 회귀선으로 설명되는 변동의 비율을 의미하며, 그 값은 0과 1 사이를 가진다. 값이 1에 가까울수록 회귀선이 데이터를 잘 설명한다고 해석할 수 있다.
단순 선형 회귀 모형에서 결정 계수는 상관 계수의 제곱과 수치적으로 동일하다는 중요한 성질을 가진다. 즉, 두 변수 간의 선형적 관계의 강도를 나타내는 상관 계수를 제곱하면 바로 결정 계수를 얻을 수 있다. 이 관계는 단순 선형 회귀의 특별한 성질로, 모형의 설명력이 두 변수 간 선형 관계의 강도에 직접적으로 연결됨을 보여준다.
계산은 총제곱합, 회귀제곱합, 잔차제곱합을 통해 이루어진다. 총제곱합은 종속 변수의 전체 변동을, 회귀제곱합은 회귀 모형이 설명하는 변동을, 잔차제곱합은 설명되지 않는 오차를 나타낸다. 결정 계수는 회귀제곱합을 총제곱합으로 나눈 값으로 구하며, 이는 1에서 (잔차제곱합/총제곱합)을 뺀 값과 같다.
이러한 계산 방식을 통해 분석자는 모형이 데이터의 패턴을 얼마나 효과적으로 포착하는지 정량적으로 평가할 수 있다. 그러나 결정 계수가 높다고 해서 반드시 인과 관계가 존재하거나 모형이 최적임을 의미하지는 않으므로, 잔차 분석 등을 통한 추가 검토가 필요하다.
3.2. 다중 선형 회귀에서의 결정 계수
3.2. 다중 선형 회귀에서의 결정 계수
단순 선형 회귀에서의 결정 계수 개념은 다중 선형 회귀 모형으로 자연스럽게 확장된다. 다중 선형 회귀 모형은 두 개 이상의 설명 변수(독립 변수)를 사용하여 종속 변수를 예측하는 모델이다. 이 경우에도 결정 계수 R²의 기본 정의는 동일하게 적용되며, 이는 모형에 포함된 모든 설명 변수가 함께 종속 변수의 변동을 얼마나 잘 설명하는지를 종합적으로 나타내는 지표이다.
계산 공식은 단순 선형 회귀와 본질적으로 같다. 즉, 총 변동(SST, 총 제곱합) 대비 회귀 모형에 의해 설명된 변동(SSR, 회귀 제곱합)의 비율로 구한다. 수식으로는 R² = SSR / SST = 1 - (SSE / SST)로 표현된다. 여기서 SSE는 설명되지 않은 잔차 변동(잔차 제곱합)을 의미한다. 다중 회귀 분석을 수행하는 통계 소프트웨어나 파이썬의 statsmodels, R 언어 등을 사용하면 이 값이 자동으로 계산되어 제공된다.
다중 선형 회귀에서 결정 계수를 해석할 때 주의할 점은, R² 값이 모형에 포함된 설명 변수의 개수가 증가하면 자연스럽게 증가하는 경향이 있다는 것이다. 새로운 변수를 추가하면, 아무리 설명력이 미미하더라도 잔차 제곱합(SSE)이 조금이라도 줄어들기 때문이다. 이는 모형의 실제 예측 능력과 무관하게 R² 값만을 높일 수 있어, 변수 선택의 기준으로 순수한 R²를 사용하는 것은 바람직하지 않을 수 있다.
이러한 단점을 보완하기 위해 통계학에서는 수정된 결정 계수(Adjusted R²)라는 개념을 사용한다. 수정된 결정 계수는 모형에 포함된 변수의 수와 표본의 크기를 고려하여 패널티를 부여함으로써, 불필요한 변수의 추가에 따른 R²의 인위적인 상승을 조정한다. 따라서 다중 회귀 모형의 적합도를 비교하거나 변수 선택을 할 때는 단순한 R²보다 수정된 결정 계수를 참고하는 것이 일반적이다.
4. 해석과 의미
4. 해석과 의미
결정 계수의 값은 0에서 1 사이에 위치하며, 이 값은 회귀 모형이 데이터를 얼마나 잘 설명하는지를 직관적으로 보여준다. 결정 계수가 1에 가까울수록 모형이 종속 변수의 변동을 거의 완벽하게 설명한다는 의미이며, 0에 가까울수록 모형의 설명력이 낮다는 것을 의미한다. 예를 들어, R² 값이 0.8이라면 종속 변수의 분산 중 80%가 독립 변수에 의해 설명된다고 해석할 수 있다.
그러나 결정 계수의 절대적 크기만으로 모형의 우수성을 판단하는 것은 주의가 필요하다. 연구 분야나 데이터의 특성에 따라 '좋은' 결정 계수의 기준은 달라질 수 있다. 예를 들어, 사회과학 분야에서는 0.3 정도의 값도 의미 있는 설명력을 가질 수 있지만, 공학이나 물리학 실험에서는 0.9 이상의 높은 값이 요구되는 경우가 많다. 따라서 결정 계수는 동일한 데이터셋에 적용된 여러 회귀 모형을 비교하는 상대적 지표로 활용하는 것이 더 적절한 경우가 많다.
결정 계수가 높다는 것은 독립 변수와 종속 변수 간의 관계가 모형으로 잘 포착되었다는 것을 의미하지만, 이 자체가 인과 관계를 증명하는 것은 아니다. 또한 모형이 데이터에 과적합되었거나, 중요한 변수가 누락되었을 때도 결정 계수는 왜곡된 값을 보일 수 있다. 따라서 결정 계수의 해석은 항상 잔차 분석이나 다른 적합도 검정 지표와 함께 이루어져야 하며, 모형의 이론적 타당성을 함께 고려해야 한다.
5. 단점과 주의사항
5. 단점과 주의사항
5.1. 설명 변수 증가 문제
5.1. 설명 변수 증가 문제
회귀 분석에서 결정 계수는 모형의 설명력을 평가하는 지표로 널리 사용된다. 하지만 결정 계수는 설명 변수의 개수가 증가할수록 그 값이 인위적으로 증가하는 문제점을 지닌다. 이는 결정 계수가 단순히 관측값과 예측값 사이의 차이인 잔차 제곱합을 기반으로 계산되기 때문이다. 새로운 변수를 모형에 추가하면, 그 변수가 유의미한 설명력을 가지지 않더라도 잔차 제곱합은 약간이라도 감소하게 되어 결정 계수 값이 증가하는 경향을 보인다. 이는 모형의 실제 예측 능력이나 설명력이 개선되지 않았음에도 통계량의 값만 좋아지는 결과를 초래할 수 있다.
이러한 문제는 특히 다중 선형 회귀 분석에서 두드러지며, 과적합의 위험을 내포한다. 설명 변수를 무분별하게 추가하여 결정 계수를 높이는 것은 모형이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 원인이 된다. 따라서 변수 선택 과정에서 결정 계수만을 기준으로 삼는 것은 바람직하지 않다. 대신 AIC나 BIC와 같은 정보 기준, 또는 교차 검증과 같은 방법을 함께 활용하여 모형의 진정한 예측력을 평가해야 한다.
5.2. 수정된 결정 계수
5.2. 수정된 결정 계수
결정 계수는 회귀 분석 모형의 적합도를 평가하는 대표적인 지표이지만, 모형에 설명 변수를 무작정 추가할 경우 그 값이 항상 증가하는 문제가 있다. 이는 모형의 실제 예측 능력과 무관하게 지표가 개선되는 환상을 만들 수 있어, 변수 선택이나 모형 비교 시 오해를 불러일으킬 수 있다. 이러한 결정 계수의 단점을 보완하기 위해 고안된 지표가 수정된 결정 계수이다.
수정된 결정 계수는 표본의 크기와 모형에 사용된 독립 변수의 개수를 고려하여 계산된다. 공식은 일반적으로 $R_{adj}^2 = 1 - (1 - R^2) \frac{n-1}{n-p-1}$로 표현되며, 여기서 $n$은 표본 크기, $p$는 독립 변수의 수를 의미한다. 이 공식에서 알 수 있듯, 변수의 수 $p$가 증가하면 분모가 작아져 수정된 결정 계수 값이 일반 결정 계수보다 작아지도록 조정된다. 이로써 불필요한 변수의 추가에 따른 인위적인 지표 상승을 억제할 수 있다.
따라서, 특히 다중 선형 회귀 분석에서 여러 모형을 비교하거나 변수 선택을 수행할 때는 단순한 결정 계수보다 수정된 결정 계수를 참고하는 것이 바람직하다. 수정된 결정 계수는 모형의 간명성과 설명력을 동시에 고려한 보다 엄격한 평가 기준을 제공한다. 그러나 이 지표 역시 절대적인 기준은 아니며, AIC나 BIC 같은 다른 정보 기준 지표와 함께 종합적으로 판단해야 한다.
6. 관련 개념
6. 관련 개념
6.1. 상관 계수
6.1. 상관 계수
상관 계수는 두 변수 간 선형 관계의 강도와 방향을 나타내는 지표이다. 결정 계수와 밀접한 관련이 있지만, 그 의미와 계산 방식에서 차이를 보인다.
가장 일반적으로 사용되는 피어슨 상관 계수는 두 변수 간 선형적 연관성을 -1에서 1 사이의 값으로 표현한다. 값이 1에 가까울수록 강한 양의 선형 관계, -1에 가까울수록 강한 음의 선형 관계를 의미하며, 0에 가까우면 선형 관계가 약하거나 없다고 해석한다. 단순 선형 회귀 분석에서 결정 계수는 상관 계수의 제곱과 수치적으로 동일하다는 중요한 관계가 성립한다. 즉, 독립 변수와 종속 변수 간 피어슨 상관 계수를 r이라고 할 때, 결정 계수 R²는 r²이 된다.
이 관계는 결정 계수의 해석에 직관을 제공한다. 상관 계수가 클수록, 즉 두 변수의 선형 관계가 강할수록 회귀 모형이 데이터의 변동을 더 잘 설명할 수 있기 때문이다. 그러나 이 관계는 다중 선형 회귀 모형에서는 성립하지 않으며, 오직 하나의 독립 변수만을 사용하는 단순 선형 회귀의 특별한 경우에 해당한다. 상관 계수는 방향성을 포함하지만, 결정 계수는 설명 가능한 분산의 비율이라는 하나의 방향(0에서 1)으로만 해석된다는 점도 차이점이다.
따라서 상관 계수는 두 변수의 관계를 탐색하는 데, 결정 계수는 구축된 회귀 모형의 전반적 적합도를 평가하는 데 각각 주로 활용된다. 통계학과 데이터 과학에서 이 두 개념은 회귀 분석의 기초를 이루는 핵심 지표로 함께 사용된다.
6.2. 잔차 분석
6.2. 잔차 분석
잔차 분석은 회귀 분석에서 모형의 적합도를 평가하고 가정의 충족 여부를 검토하는 과정이다. 결정 계수는 모형의 전반적인 설명력을 하나의 수치로 요약하지만, 잔차 분석은 모형의 세부적인 문제점을 진단하는 데 초점을 맞춘다.
잔차 분석의 핵심은 잔차의 패턴을 시각적 또는 통계적으로 검토하는 것이다. 주요 검토 사항으로는 잔차가 정규 분포를 따르는지, 분산이 일정한지(등분산성), 그리고 독립성을 유지하는지 확인하는 것이 포함된다. 이를 위해 잔차도나 Q-Q 플롯과 같은 그래픽 도구가 널리 사용된다. 예를 들어, 잔차의 패턴이 무작위적으로 분포하지 않고 특정한 곡선이나 추세를 보인다면, 모형에 중요한 독립 변수가 누락되었거나 선형 관계가 아닐 가능성이 있다.
잔차 분석은 결정 계수로는 파악하기 어려운 모형의 한계를 발견하는 데 필수적이다. 높은 결정 계수를 가진 모형이라도 잔차 분석에서 이상치나 영향점이 발견되거나, 등분산성 가정이 위배된다면 그 예측력은 신뢰할 수 없을 수 있다. 따라서 회귀 모형의 타당성을 종합적으로 판단하기 위해서는 결정 계수와 함께 잔차 분석을 병행하여 수행해야 한다.
7. 여담
7. 여담
결정 계수는 회귀 분석 모형의 적합도를 평가하는 가장 보편적인 지표 중 하나이다. 그러나 높은 R² 값이 항상 '좋은 모형'을 의미하는 것은 아니며, 이는 모형의 설명력만을 나타낼 뿐 예측 정확도나 인과 관계를 보장하지 않는다는 점에서 주의가 필요하다. 특히 시계열 분석이나 복잡한 비선형 데이터에서는 R²가 오해의 소지를 줄 수 있어, AIC나 BIC 같은 다른 모형 선택 기준과 함께 사용하는 것이 권장된다.
기계 학습 분야에서는 결정 계수가 훈련 데이터에 대한 과적합을 반영할 수 있어, 모델 평가 시 검증 데이터나 테스트 데이터에서 계산된 R²를 더 중요하게 여긴다. 또한 로지스틱 회귀 같은 분류 모델에는 적용되지 않으며, 이 경우 정확도, 정밀도, 재현율, ROC 곡선 등 다른 평가 지표가 사용된다.
통계 소프트웨어나 프로그래밍 언어 (예: R, Python의 Statsmodels 또는 scikit-learn 라이브러리)를 사용하면 결정 계수를 쉽게 계산할 수 있다. 이 지표는 연구 논문이나 데이터 분석 보고서에서 회귀 모형의 성능을 간결하게 전달하는 데 유용하지만, 앞서 언급한 단점들을 인지하고 맹목적으로 높은 수치만을 추구해서는 안 된다.
