스피어만 상관계수
1. 개요
1. 개요
스피어만 상관계수는 두 변수 간의 순위 상관관계를 평가하는 비모수적 통계 기법이다. 이 방법은 찰스 스피어만에 의해 제안되었으며, 데이터의 실제 값 대신 순위를 기반으로 계산된다는 특징이 있다. 이는 데이터가 정규 분포를 따르지 않거나, 이상치의 영향을 많이 받는 경우, 또는 관계가 비선형적이지만 단조 관계를 보일 때 유용하게 적용된다.
주요 용도는 데이터 분석에서 두 변수 간의 단조적인 관계의 강도와 방향을 측정하는 것이다. 계산 결과는 -1에서 +1 사이의 값을 가지며, +1은 완벽한 양의 순위 상관관계, -1은 완벽한 음의 순위 상관관계, 0은 순위 상관관계가 없음을 의미한다. 이는 피어슨 상관계수가 선형 관계를 측정하는 것과 대비되는 점이다.
스피어만 상관계수는 사회과학, 심리학, 의학 연구 등 다양한 분야에서 널리 활용된다. 예를 들어, 설문조사에서 얻은 서열 척도 데이터의 관계를 분석하거나, 특정 교육 방법의 효과 순위와 학생 성적 순위 간의 연관성을 파악하는 데 적합하다. 이 기법은 통계 소프트웨어나 프로그래밍 언어를 통해 비교적 쉽게 계산하고 해석할 수 있다.
2. 개념
2. 개념
2.1. 정의
2.1. 정의
스피어만 상관계수는 두 변수 간의 순위 상관관계를 평가하는 비모수적 통계 기법이다. 이 방법은 찰스 스피어만에 의해 제안되었으며, 데이터의 실제 값 대신 각 변수의 순위(랭크)를 기반으로 상관관계를 계산한다. 이는 데이터가 정규 분포를 따르지 않거나, 이상치가 존재하거나, 변수 간 관계가 단조로운(monotonic) 경우에 특히 유용하다.
계산 방식은 먼저 두 변수의 각 관측값에 순위를 부여한 후, 이 순위 값들 사이의 피어슨 상관계수를 구하는 것과 동일하다. 결과적으로 얻어지는 스피어만 상관계수의 값은 -1에서 +1 사이의 범위를 가진다. +1에 가까울수록 두 변수의 순위가 완전히 일치하는 강한 양의 단조 관계를, -1에 가까울수록 순위가 완전히 반대인 강한 음의 단조 관계를 나타낸다. 0에 가까운 값은 순위 간에 체계적인 관계가 없음을 의미한다.
이 기법은 서열 척도 데이터를 분석하거나, 선형성 가정이 성립하지 않는 비선형 관계를 탐색할 때 피어슨 상관계수 대신 널리 활용된다. 또한 의료 연구, 심리측정, 고객 만족도 분석 등 다양한 데이터 분석 분야에서 적용된다.
2.2. 특징
2.2. 특징
스피어만 상관계수의 주요 특징은 비모수적 방법이라는 점이다. 이는 데이터가 특정한 확률 분포, 특히 정규 분포를 따를 필요가 없음을 의미한다. 따라서 데이터가 정규성을 만족하지 않거나, 이상치가 존재하는 경우에도 안정적으로 적용할 수 있다.
계산 방식에서 알 수 있듯이, 스피어만 상관계수는 두 변수의 실제 값이 아닌 순위를 기반으로 한다. 이는 변수 간의 단조 관계를 측정하는 데 초점을 맞춘다. 단조 관계란 한 변수가 증가할 때 다른 변수가 일관되게 증가하거나 감소하는 관계를 말하며, 선형 관계보다 더 넓은 개념이다. 이러한 특성 덕분에 비선형적이지만 단조로운 관계를 가진 데이터의 상관성을 평가하는 데 유용하다.
값의 범위는 -1에서 +1 사이이며, 피어슨 상관계수와 동일한 해석 방식을 공유한다. +1에 가까울수록 완벽한 양의 순위 상관관계를, -1에 가까울수록 완벽한 음의 순위 상관관계를 나타낸다. 0에 가까우면 순위 상관관계가 거의 없음을 의미한다. 이 계수는 찰스 스피어만에 의해 제안된 순위 상관계수의 대표적인 예이다.
2.3. 피어슨 상관계수와의 차이
2.3. 피어슨 상관계수와의 차이
스피어만 상관계수와 피어슨 상관계수는 둘 다 두 변수 간의 관계를 -1에서 +1 사이의 값으로 측정하는 상관분석 기법이다. 그러나 측정하는 관계의 성격과 적용 조건에서 근본적인 차이를 보인다.
가장 핵심적인 차이는 측정하는 관계의 유형이다. 피어슨 상관계수는 두 연속형 변수 간의 선형 관계의 강도와 방향을 측정한다. 이는 데이터가 직선 형태로 얼마나 잘 표현될 수 있는지를 평가한다. 반면, 스피어만 상관계수는 두 변수 간의 단조 관계를 측정한다. 단조 관계란 한 변수가 증가할 때 다른 변수가 일관되게 증가하거나 감소하는 경향을 의미하며, 선형 관계보다 더 넓은 개념으로 비선형적이지만 일관된 경향을 보이는 관계도 포착할 수 있다.
두 번째 주요 차이는 데이터에 대한 가정과 이상치에 대한 민감도에 있다. 피어슨 상관계수는 모수적 검정에 속하며, 데이터가 정규 분포를 따르고 선형성 및 등분산성 등의 조건을 충족할 때 가장 신뢰할 수 있는 결과를 제공한다. 또한 이상치에 매우 민감하여 극단값이 존재할 경우 상관계수 값이 크게 왜곡될 수 있다. 이에 비해 스피어만 상관계수는 비모수적 검정 방법으로, 데이터의 분포에 대한 가정이 필요하지 않다. 계산 시 원본 데이터 값 대신 순위를 사용하기 때문에 이상치의 영향을 상대적으로 덜 받으며, 서열 척도 데이터에도 적용 가능하다.
비교 항목 | 피어슨 상관계수 | 스피어만 상관계수 |
|---|---|---|
측정 관계 | 선형 관계 | 단조 관계 (선형 및 비선형 포함) |
방법론 성격 | 모수적 방법 | 비모수적 방법 |
주요 가정 | 정규성, 선형성, 등분산성 | 가정 없음 (순위 기반) |
이상치 영향 | 매우 민감함 | 상대적으로 강건함 |
적용 데이터 | 연속형 데이터 (등간, 비율 척도) | 서열 척도 이상의 데이터 |
따라서 분석자는 데이터의 특성과 연구 목적에 따라 적절한 방법을 선택해야 한다. 데이터가 정규 분포를 따르고 선형 관계가 예상될 경우 피어슨 상관계수를, 데이터의 분포가 불명확하거나 비선형 관계가 의심되거나 이상치가 많을 경우, 또는 서열 데이터를 분석할 때는 스피어만 상관계수를 사용하는 것이 일반적이다.
3. 계산 방법
3. 계산 방법
3.1. 순위 변환
3.1. 순위 변환
스피어만 상관계수를 계산하기 위한 첫 번째 단계는 원본 데이터를 순위 데이터로 변환하는 것이다. 이 과정을 순위 변환이라고 한다. 각 변수의 관측값들을 크기 순서대로 나열하여 가장 작은 값에 1순위, 그 다음 값에 2순위를 부여하는 방식으로 순위를 매긴다. 동일한 값이 여러 개 존재하는 경우, 즉 동점이 발생하면 해당 값들의 순위를 평균내어 부여한다. 예를 들어, 두 번째와 세 번째 값이 동일하다면 두 값 모두 (2+3)/2 = 2.5 순위를 받는다.
순위 변환은 스피어만 상관계수가 피어슨 상관계수와 근본적으로 다른 특성을 갖게 하는 핵심 과정이다. 피어슨 상관계수가 원본 데이터의 실제 수치와 그 선형 관계에 기반한다면, 스피어만 상관계수는 데이터의 순서, 즉 순위 정보만을 사용한다. 이로 인해 스피어만 상관계수는 비모수 통계 방법으로 분류된다. 순위 변환 과정은 이상치의 영향을 크게 줄여준다. 극단적으로 크거나 작은 값이 있어도 순위로 변환되면 그 영향이 제한되기 때문이다.
이러한 순위 기반 접근법은 데이터가 정규 분포를 따르지 않거나, 서열 척도로 측정되었을 때, 또는 변수 간 관계가 단조 함수 형태를 보일 때 특히 유용하다. 순위 변환 후에는 두 변수의 순위 쌍 사이의 차이를 계산하여 최종적인 상관계수 값을 도출하게 된다.
3.2. 계산 공식
3.2. 계산 공식
스피어만 상관계수는 두 변수의 실제 값이 아닌 순위를 기반으로 계산한다. 계산의 첫 단계는 각 변수의 관측값에 순위를 매기는 순위 변환이다. 동점이 있는 경우에는 평균 순위를 부여한다.
순위 변환이 완료되면, 각 데이터 쌍의 순위 차이를 계산한다. 스피어만 상관계수 ρ는 다음 공식을 사용하여 구한다.
ρ = 1 - (6 * Σd_i²) / (n(n² - 1))
여기서 d_i는 각 쌍의 순위 차이이고, n은 데이터 포인트의 총 개수이다. 이 공식은 순위 차이의 제곱합을 사용하여 두 변수의 순위가 얼마나 일치하는지를 측정한다.
계산된 상관계수 값은 -1에서 +1 사이의 범위를 가진다. 값이 +1에 가까울수록 두 변수의 순위가 완벽하게 일치하는 강한 양의 단조 관계를, -1에 가까울수록 순위가 완전히 반대인 강한 음의 단조 관계를 나타낸다. 값이 0에 가까우면 순위 간에 체계적인 관계가 없음을 의미한다. 이 계산 방식은 비모수 통계 방법에 속하며, 이상치에 강건하고 데이터가 정규 분포를 따르지 않아도 사용할 수 있다는 특징이 있다.
3.3. 계산 예시
3.3. 계산 예시
스피어만 상관계수의 계산 과정을 구체적인 예시를 통해 설명한다. 예를 들어, 다섯 명의 학생이 치른 두 과목 시험의 원점수를 가지고 순위 상관관계를 계산해 본다.
학생 | 수학 점수 (X) | 과학 점수 (Y) |
|---|---|---|
A | 85 | 90 |
B | 70 | 75 |
C | 95 | 88 |
D | 60 | 65 |
E | 80 | 92 |
계산의 첫 단계는 각 변수의 원점수를 순위로 변환하는 것이다. 수학 점수(X)를 기준으로 가장 낮은 점수인 60점(D)은 1순위, 70점(B)은 2순위, 80점(E)은 3순위, 85점(A)은 4순위, 가장 높은 95점(C)은 5순위가 된다. 과학 점수(Y)도 동일하게 가장 낮은 65점(D)은 1순위, 75점(B)는 2순위, 88점(C)은 3순위, 90점(A)은 4순위, 92점(E)은 5순위가 된다. 동점이 없는 경우 평균 순위를 계산할 필요가 없다.
다음으로 각 학생의 두 과목 순위 차이(d)와 그 제곱(d²)을 계산한다. 학생 A의 경우 수학 순위 4, 과학 순위 4로 차이는 0, 제곱도 0이다. 학생 B는 순위 2와 2로 차이 0, 학생 C는 순위 5와 3으로 차이 2, 제곱 4, 학생 D는 순위 1과 1로 차이 0, 학생 E는 순위 3과 5로 차이 -2, 제곱 4가 된다. 모든 순위 차이 제곱의 합(Σd²)은 0+0+4+0+4 = 8이다.
이 값을 스피어만 상관계수 공식에 대입한다. 공식은 ρ = 1 - [ 6 × Σd² ] / [ n × (n² - 1) ] 이다. 여기서 n은 데이터 쌍의 수, 즉 학생 수 5이다. 따라서 계산은 1 - [ 6 × 8 ] / [ 5 × (25 - 1) ] = 1 - (48 / 120) = 1 - 0.4 = 0.6 이다. 결과적으로 두 과목 점수의 순위 상관계수는 약 0.6으로, 양의 상관관계가 존재함을 알 수 있다. 이는 일반적으로 수학 점수 순위가 높은 학생이 과학 점수 순위도 높은 경향이 있다는 것을 의미한다.
4. 활용
4. 활용
4.1. 적용 조건
4.1. 적용 조건
스피어만 상관계수는 특정 조건에서 특히 유용하게 적용된다. 이는 비모수 통계 방법에 속하므로, 피어슨 상관계수와 달리 데이터가 정규 분포를 따르지 않거나 등분산성 등의 모수적 가정을 만족하지 못할 때 사용할 수 있다. 또한 순위 척도로 측정된 데이터나 서열형 변수를 분석할 때 적합하다.
주요 적용 조건은 데이터 간의 관계가 단조 관계를 보일 때이다. 즉, 한 변수가 증가할 때 다른 변수가 일관되게 증가하거나 감소하는 경향이 있으면, 그 관계가 완벽한 선형 관계가 아니더라도 스피어만 상관계수는 이를 포착할 수 있다. 이는 비선형 관계이지만 단조로운 패턴을 가진 데이터의 상관관계를 평가하는 데 유리하다. 또한 데이터에 이상치가 많거나 극단값이 존재하는 경우, 값 자체보다 순위에 기반하기 때문에 이러한 영향에 덜 민감하다는 장점이 있다.
반면, 명목 척도 데이터에는 적용할 수 없으며, 두 변수 간의 관계가 단조적이지 않고 복잡한 패턴(예: U자형 곡선)을 보일 때는 적절한 결과를 제공하지 못할 수 있다. 또한 순위로 변환하는 과정에서 원래 데이터가 가진 구체적인 수치 정보가 일부 손실될 수 있다는 점을 고려해야 한다.
4.2. 사용 사례
4.2. 사용 사례
스피어만 상관계수는 데이터가 정규 분포를 따르지 않거나, 이상치가 존재하며, 비선형적이지만 단조로운 관계를 평가할 때 널리 활용된다. 이는 비모수 통계 방법이기 때문에 데이터에 대한 엄격한 가정이 필요하지 않아 다양한 실무 상황에 적용하기 적합하다.
주된 사용 사례로는 서열 척도 데이터의 분석이 있다. 예를 들어, 학생들의 시험 성적 순위와 과제 제출 순위 간의 관계를 평가하거나, 소비자 조사에서 제품에 대한 선호도 순위와 실제 구매 의도 순위의 연관성을 파악하는 데 사용할 수 있다. 또한 의학 연구에서는 특정 증상의 심각도 순위와 삶의 질 지수 순위 간의 상관관계를 분석하는 데 활용되며, 심리학 연구에서는 설문지의 리커트 척도(서열적 특성을 가짐) 데이터 간 관계를 탐색할 때도 자주 적용된다.
이 외에도 데이터에 극단적인 이상치가 포함되어 피어슨 상관계수의 결과가 왜곡될 우려가 있을 때, 또는 관계가 선형적이지 않지만 한 변수가 증가할 때 다른 변수가 일관되게 증가하거나 감소하는 단조 함수적 관계를 보일 때 스피어만 상관계수를 대안으로 선택한다. 예를 들어, 광고 노출량과 브랜드 인지도 간의 관계는 정확한 선형 비례 관계보다는 점진적인 증가 추세를 보일 수 있어, 이러한 경우에 유용하게 사용될 수 있다.
4.3. 소프트웨어 구현
4.3. 소프트웨어 구현
스피어만 상관계수는 R, 파이썬, SPSS, SAS 등 대부분의 통계 및 데이터 분석 소프트웨어에서 기본적으로 지원되는 기능이다. 구현 방식은 소프트웨어마다 다르지만, 공통적으로 두 변수의 원본 데이터를 순위로 변환한 후 피어슨 상관계수를 계산하는 방식을 취한다.
주요 소프트웨어별 구현 함수는 다음과 같다.
소프트웨어/패키지 | 함수/메서드 | 주요 인수 |
|---|---|---|
R (기본 stats 패키지) |
| x, y: 분석할 두 벡터 |
R (Hmisc 패키지) |
| 행렬 형태의 데이터 입력, p-값 함께 제공 |
Python (SciPy) |
| a, b: 분석할 두 배열 |
Python (pandas) |
| 데이터프레임 전체의 상관행렬 계산 |
SPSS | 분석(A) > 상관분석(C) > 이변량 상관계수(B)... | 변수 선택, '스피어만' 선택 |
Excel | 없음 (추가 기능 또는 수식 구현 필요) |
구현 시 주의할 점은 동점 처리 방식이다. 대부분의 소프트웨어는 동일한 값을 가진 데이터에 대해 평균 순위를 부여하는 방식을 기본으로 채택한다. 또한, 비모수 통계 방법이므로 데이터의 정규 분포 여부나 이상치에 대한 사전 검정 없이도 적용할 수 있다는 장점이 구현의 편의성으로 이어진다.
5. 결과 해석
5. 결과 해석
5.1. 상관계수 값의 의미
5.1. 상관계수 값의 의미
스피어만 상관계수의 값은 -1에서 +1 사이의 범위를 가진다. 계수의 절대값이 클수록 두 변수 간의 순위 상관관계가 강함을 의미한다. 계수가 +1에 가까울수록 완벽한 양의 단조 관계를 나타낸다. 즉, 한 변수의 순위가 높아지면 다른 변수의 순위도 일관되게 높아지는 경향이 있다. 반대로 계수가 -1에 가까울수록 완벽한 음의 단조 관계를 나타내며, 한 변수의 순위가 높아질수록 다른 변수의 순위는 낮아지는 경향이 있다. 계수가 0에 가까우면 두 변수의 순위 사이에 체계적인 관계가 거의 없음을 의미한다.
계수의 부호는 관계의 방향성을 나타낸다. 양의 값은 두 변수가 같은 방향으로 움직이는 경향이 있음을, 음의 값은 반대 방향으로 움직이는 경향이 있음을 시사한다. 예를 들어, 학생들의 공부 시간 순위와 시험 성적 순위 사이에서 높은 양의 스피어만 상관계수가 관찰된다면, 공부 시간이 더 많은 학생들이 일반적으로 더 높은 성적을 받는 경향이 있다고 해석할 수 있다. 반대로, 휴대전화 사용 시간 순위와 학업 성취도 순위 사이에서 음의 상관관계가 나타날 수 있다.
계수의 크기에 대한 일반적인 해석 기준은 다음과 같다. 절대값이 0.00에서 0.19 사이이면 매우 약한 상관관계, 0.20에서 0.39 사이이면 약한 상관관계, 0.40에서 0.59 사이이면 중간 정도의 상관관계, 0.60에서 0.79 사이이면 강한 상관관계, 0.80에서 1.00 사이이면 매우 강한 상관관계로 간주하는 경우가 많다. 그러나 이는 절대적인 기준이 아니며, 연구 분야와 데이터의 특성에 따라 해석이 달라질 수 있다.
스피어만 상관계수는 순위 기반의 관계를 측정하므로, 비선형이지만 단조로운 관계를 포착할 수 있다는 점이 피어슨 상관계수와의 주요 차이점이다. 또한 이 계수는 이상치에 덜 민감하고 정규 분포를 가정하지 않는 비모수 통계 방법이다. 따라서 데이터가 서열 척도이거나 정규성을 만족하지 않을 때, 또는 관계가 선형적이지 않을 가능성이 있을 때 유용하게 적용된다.
5.2. 통계적 유의성 검정
5.2. 통계적 유의성 검정
스피어만 상관계수로 계산된 상관관계가 통계적으로 유의미한지 판단하기 위해서는 통계적 유의성 검정을 수행한다. 이 검정의 귀무가설은 "두 변수 간 순위 상관관계가 없다" 즉, 모집단에서의 스피어만 상관계수 ρ가 0이라는 것이다. 대립가설은 ρ가 0이 아니라는 것이다.
이 검정은 비모수적 방법으로, 데이터가 특정 분포를 따른다는 가정이 필요하지 않다. 표본 크기가 충분히 크다면(일반적으로 n > 30), 검정 통계량은 근사적으로 표준정규분포를 따른다. 검정 결과로 얻는 p-값이 사전에 설정한 유의수준(예: 0.05)보다 작으면, 귀무가설을 기각하고 두 변수 간에 통계적으로 유의미한 순위 상관관계가 존재한다고 결론 내린다. 반대로 p-값이 유의수준보다 크면, 관찰된 상관관계가 우연히 발생했을 가능성이 높다고 보아 유의미한 관계가 없다고 판단한다.
이러한 검정은 R (프로그래밍 언어)이나 Python의 통계 패키지를 통해 쉽게 수행할 수 있다. 또한, 상관계수 행렬을 계산할 때 각 계수에 대한 p-값을 함께 제공하는 경우가 많다. 검정 시 주의할 점은, 통계적 유의성은 상관관계의 강도와는 별개의 개념이라는 것이다. 표본 크기가 매우 크면 약한 상관관계도 통계적으로 유의미하게 나올 수 있으므로, 상관계수의 크기와 p-값을 함께 해석하는 것이 중요하다.
6. 장단점
6. 장단점
6.1. 장점
6.1. 장점
스피어만 상관계수의 주요 장점은 데이터에 대한 엄격한 가정이 필요하지 않은 비모수적 방법이라는 점이다. 이는 피어슨 상관계수와 달리 데이터가 정규 분포를 따르지 않거나, 이상치가 존재하는 경우에도 안정적으로 사용할 수 있음을 의미한다. 또한, 순위를 기반으로 계산되기 때문에 변수 간의 단조 관계를 평가하는 데 효과적이다. 즉, 관계가 완벽한 직선이 아니더라도 한 변수가 증가할 때 다른 변수가 증가하거나 감소하는 경향이 있다면 이를 포착할 수 있다.
이러한 특성 덕분에 서열 척도 데이터를 분석하거나, 비선형 관계가 의심되는 상황에서 널리 활용된다. 예를 들어, 고객 만족도 설문의 순위와 재구매율 간의 관계를 분석하거나, 학업 성적과 공부 시간의 순위적 연관성을 살펴볼 때 유용하다. 또한, 계산 과정이 비교적 간단하고 직관적이어서 다양한 데이터 분석 분야에서 접근성이 높은 방법이다.
6.2. 단점 및 주의사항
6.2. 단점 및 주의사항
스피어만 상관계수는 비모수 통계 기법으로서 피어슨 상관계수에 비해 여러 장점을 가지지만, 사용 시 고려해야 할 몇 가지 단점과 주의사항이 존재한다.
첫째, 스피어만 상관계수는 변수의 실제 값이 아닌 순위 정보만을 사용한다. 이는 이상치에 강건하고 정규 분포를 가정하지 않아도 된다는 장점이지만, 동시에 원본 데이터가 가진 정량적 정보의 일부를 손실한다는 단점으로 이어진다. 예를 들어, 두 값 사이의 큰 차이와 작은 차이가 모두 순위 차이 1로 동일하게 취급되므로, 관계의 정밀한 강도를 측정하는 데는 한계가 있을 수 있다. 또한, 연속형 변수를 순위로 변환하는 과정에서 정보가 단순화된다.
둘째, 이 방법은 두 변수 간의 단조 관계만을 탐지할 수 있다. 즉, 한 변수가 증가할 때 다른 변수가 전반적으로 증가하거나 감소하는 경향이 있는지를 평가한다. 따라서 U자형이나 역U자형과 같은 복잡한 비선형 관계는 단조 관계가 아니므로 스피어만 상관계수로는 그 강도를 적절히 측정할 수 없다. 이러한 관계를 분석하려면 산점도를 먼저 확인하거나 다른 분석 방법을 고려해야 한다.
마지막으로, 모든 상관관계 분석에서 주의해야 할 점이지만, 스피어만 상관계수로 높은 상관성이 발견되었다 하더라도 그것이 인과관계를 의미하지는 않는다. 상관관계는 단지 두 변수가 함께 변하는 패턴을 보여줄 뿐, 어느 변수가 원인이고 결과인지는 알 수 없다. 인과 관계를 주장하려면 통제된 실험 설계나 더 엄밀한 통계적 모델링이 필요하다. 또한, 표본 크기가 매우 작은 경우 상관계수가 우연에 의해 크게 나타날 수 있으므로, p-값을 활용한 통계적 유의성 검정을 반드시 수행해야 한다.
